Usando los scripts de Cloudera para procesar la Wikipedia
Hay una entrada muy detallada en el blog de Cloudera que demuestra paso a paso como usar los scripts de Cloudera para procesar la Wikipedia, usando Hadoop corriendo en EC2 y una versión separada por tabs (TSV) de la Wikipedia que está disponible de manera gratuita en S3. La información está detallada a manera de tutorial, y nos será muy útil en la materia de graduación; sobre todo porque 3 grupos trabajarán procesando la Wikipedia (pistas: ¿qué se sabe de Ecuador en la Wikipedia?, ¿qué se sabe de Guayaquil en la Wikipedia?, WikiGrep… más detalles el primer día de clases).
mayo 12th, 2009 at 23:55
Es interesante ver toda la cantidad de información disponible públicamente en S3.
Navegando en la red, así mismo me encontre con el blog de unos investigadores que usan data de la GBIF (Global Biodiversity Information Facility) y en algunos casos la procesan con Hadoop en EC2.
Esa base de datos contiene información como por ejemplo, las especies biológicas asociadas a la latitud y longitud de la tierra, en una celda de un grado de longitud x un grado de latitud.
En un ejemplo, el autor hace un cruce de la base de datos de la GBIF con otra DB que asocia información (áreas protegidas) a ubicación geográfica y hace un cruce entre las mismas.
Mientras más información esté disponible en formato abierto, muchas mayores aplicaciones podrán ser creadas e implementadas.
mayo 13th, 2009 at 08:57
Correcto, y por esto es posible trabajar en muchos proyectos interesantes usando Hadoop. Sería bueno que revisen los data sets en S3 con acceso gratuito ya que puede que les surjan ideas de proyectos de pronto más interesantes o trascendentes que los que yo tengo en mente.
mayo 21st, 2009 at 20:44
El gobierno estadounidense ahora tiene disponible http://www.data.gov/
Hay un amplio conjunto de datasets disponible en varios formatos, incluyendo información atada al formato geoespacial.