Usando los scripts de Cloudera para procesar la Wikipedia

Hay una entrada muy detallada en el blog de Cloudera que demuestra paso a paso como usar los scripts de Cloudera para procesar la Wikipedia, usando Hadoop corriendo en EC2 y una versión separada por tabs (TSV) de la Wikipedia que está disponible de manera gratuita en S3. La información está detallada a manera de tutorial, y nos será muy útil en la materia de graduación; sobre todo porque 3 grupos trabajarán procesando la Wikipedia (pistas: ¿qué se sabe de Ecuador en la Wikipedia?, ¿qué se sabe de Guayaquil en la Wikipedia?, WikiGrep… más detalles el primer día de clases).

Tags: , , , , ,

3 Responses to “Usando los scripts de Cloudera para procesar la Wikipedia”

  1. Romeo Cabrera Says:

    Es interesante ver toda la cantidad de información disponible públicamente en S3.

    Navegando en la red, así mismo me encontre con el blog de unos investigadores que usan data de la GBIF (Global Biodiversity Information Facility) y en algunos casos la procesan con Hadoop en EC2.

    Esa base de datos contiene información como por ejemplo, las especies biológicas asociadas a la latitud y longitud de la tierra, en una celda de un grado de longitud x un grado de latitud.

    En un ejemplo, el autor hace un cruce de la base de datos de la GBIF con otra DB que asocia información (áreas protegidas) a ubicación geográfica y hace un cruce entre las mismas.

    Mientras más información esté disponible en formato abierto, muchas mayores aplicaciones podrán ser creadas e implementadas.

  2. cristina.abad Says:

    Correcto, y por esto es posible trabajar en muchos proyectos interesantes usando Hadoop. Sería bueno que revisen los data sets en S3 con acceso gratuito ya que puede que les surjan ideas de proyectos de pronto más interesantes o trascendentes que los que yo tengo en mente.

  3. Romeo Cabrera Says:

    El gobierno estadounidense ahora tiene disponible http://www.data.gov/

    Hay un amplio conjunto de datasets disponible en varios formatos, incluyendo información atada al formato geoespacial.

Leave a Reply