Cloud Computing, MapReduce y Hadoop » Blog Archive

Más data sets de la Wikipedia

Una entrada en el blog de Data Wrangling describe tres data sets de la Wikipedia: el ya conocido raw dump, uno que contiene estadísticas de las frecuencias de visitas a las páginas de la Wikipedia durante 7 meses (el cual ya está subido a los AWS), y uno con la lista de los enlaces de las páginas a otras páginas.

Los invito a darme ideas de usos interesantes de estos data sets.

Tags: aws, wikipedia

This entry was posted on viernes, junio 12th, 2009 at 16:23 and is filed under Desarrollo, ESPOL, Investigación. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

2 Responses to “Más data sets de la Wikipedia”

Romeo Cabrera A. Says:
junio 16th, 2009 at 16:40
Sería interesante ver los resultados que devuelve una minería de datos del tipo:

Determinar las parejas de páginas (K, V), tales que tengan la mayor cantidad de enlaces hacia ellas en común.

Como un factor adicional, se podría del listado anterior, señalar cuáles parejas (K, V) no se enlazan entre ellas...
X-allam Says:
junio 17th, 2009 at 13:52
Me parece que sería buena idea que Wikipedia ofrezca búsquedas sentimentales (de acuerdo a la clasificación de palabras por grupo "sentimentales") ó por páginas semejantes (analizando los términos)

Encontré un sitio que puede ayudar con muy buenas ideas de visualización para minería de texto: http://manyeyes.alphaworks.ibm.com/manyeyes/

Más data sets de la Wikipedia

2 Responses to “Más data sets de la Wikipedia”

Leave a Reply