Proyectos

Recursos sobre la Wikipedia:

  • En el 2nd Conference on Weblogs and Social Media (2008) se publicaron varios papers con resultados de análisis de la Wikipedia, blogs y otros medios sociales. En la página del evento del 2009 también hay información de interés.
  • La información de la Wikipedia está disponible en formato XML y SQL, con y sin la información de las ediciones. También está disponible el front-end, el esquema de la base de datos, herramientas de conversión, y otras herramientas útiles.
  • EL dataset de la Wikipedia disponible de manera gratuita en S3 (AWS) es fácil de procesar en Hadoop ya que se encuentra en formato TSV (tab separated values). Los datasets originales de la Wikipedia en formato XML no pueden ser procesados directamente en Hadoop. Una alternativa es pre-procesarlos con scripts, pero otra alternativa interesante es usar la librería Cloud9; específicamente, el package edu.umd.cloud9.collection.wikipedia.

Recursos sobre sistemas de recomendaciones:

Recursos sobre búsquedas tipo grep:

  • Caso de estudio GrepTheWeb (Alexa), que describe en detalle la arquitectura utilizada, la cual usa de manera extensiva los Amazon Web Services (AWS).
  • Hace algún tiempo Tom White (quien es miembro de Cloudera, y autor del libro guía de la materia), publicó una entrada en su blog sobre un grep distribuido usando Nutch MapReduce. Aclaración: el proyecto Nutch MapReduce de Apache fue lo que posteriormente se independizó con el nombre de Hadoop.
  • Algunos papers:
    • Junghoo Cho y Sridhar Rajagopalan, “A Fast Regular Expression Indexing Engine,” en Data Engineering, International Conference on, pp. 0419, 18th International Conference on Data Engineering (ICDE’02), 2002. Disponible en: http://oak.cs.ucla.edu/~cho/papers/cho-regex.pdf.
    • Gonzalo Navarro y Jorma Tarhio. “LZgrep: A Boyer-Moore String Matching Tool for Ziv-Lempel Compressed Text,” en Software Practice and Experience (SPE) 35(12):1107-1130, 2005. Disponible en: http://www.dcc.uchile.cl/~gnavarro/publ.html
    • Gonzalo Navarro. “NR-grep: a Fast and Flexible Pattern Matching Tool,” en Software Practice and Experience (SPE) 31:1265-1312, 2001.  Disponible en: http://www.dcc.uchile.cl/~gnavarro/publ.html

Recursos sobre Call Detail Records (CDRs):

  • En google scholar se puede encontrar unos cuantos papers que pueden dar ideas del tipo de análisis que se puede hacer sobre los CDRs. Dos ejemplos son los papers de Gilbert et al. y de Rosset et al.
  • Existe una base de datos masivamente escalable llamada Greenplum que tiene entre sus clientes varias telefónicas, que ha implementado MapReduce de manera nativa. La información en los whitepapers de ellos puede servir de soporte para las secciones de descripción del problema y motivación.

Otos datasets:

  • Hay una lista de datasets disponibles en la Web (muchos gratuitos) en datawrangling.com.