Cloud Computing, MapReduce y Hadoop » Blog Archive » Usando los scripts de Cloudera para procesar la Wikipedia

Usando los scripts de Cloudera para procesar la Wikipedia

Hay una entrada muy detallada en el blog de Cloudera que demuestra paso a paso como usar los scripts de Cloudera para procesar la Wikipedia, usando Hadoop corriendo en EC2 y una versión separada por tabs (TSV) de la Wikipedia que está disponible de manera gratuita en S3. La información está detallada a manera de tutorial, y nos será muy útil en la materia de graduación; sobre todo porque 3 grupos trabajarán procesando la Wikipedia (pistas: ¿qué se sabe de Ecuador en la Wikipedia?, ¿qué se sabe de Guayaquil en la Wikipedia?, WikiGrep… más detalles el primer día de clases).

Tags: aws, cloudera, ec2, hadoop, S3, wikipedia

This entry was posted on martes, mayo 12th, 2009 at 20:04 and is filed under Desarrollo, Educación, ESPOL. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

3 Responses to “Usando los scripts de Cloudera para procesar la Wikipedia”

Romeo Cabrera Says:
mayo 12th, 2009 at 23:55
Es interesante ver toda la cantidad de información disponible públicamente en S3.

Navegando en la red, así mismo me encontre con el blog de unos investigadores que usan data de la GBIF (Global Biodiversity Information Facility) y en algunos casos la procesan con Hadoop en EC2.

Esa base de datos contiene información como por ejemplo, las especies biológicas asociadas a la latitud y longitud de la tierra, en una celda de un grado de longitud x un grado de latitud.

En un ejemplo, el autor hace un cruce de la base de datos de la GBIF con otra DB que asocia información (áreas protegidas) a ubicación geográfica y hace un cruce entre las mismas.

Mientras más información esté disponible en formato abierto, muchas mayores aplicaciones podrán ser creadas e implementadas.
cristina.abad Says:
mayo 13th, 2009 at 08:57
Correcto, y por esto es posible trabajar en muchos proyectos interesantes usando Hadoop. Sería bueno que revisen los data sets en S3 con acceso gratuito ya que puede que les surjan ideas de proyectos de pronto más interesantes o trascendentes que los que yo tengo en mente.
Romeo Cabrera Says:
mayo 21st, 2009 at 20:44
El gobierno estadounidense ahora tiene disponible http://www.data.gov/

Hay un amplio conjunto de datasets disponible en varios formatos, incluyendo información atada al formato geoespacial.

Usando los scripts de Cloudera para procesar la Wikipedia

3 Responses to “Usando los scripts de Cloudera para procesar la Wikipedia”

Leave a Reply