Más data sets de la Wikipedia

Una entrada en el blog de Data Wrangling describe tres data sets de la Wikipedia: el ya conocido raw dump, uno que contiene estadísticas de las frecuencias de visitas a las páginas de la Wikipedia durante 7 meses (el cual ya está subido a los AWS), y uno con la lista de los enlaces de las páginas a otras páginas.

Los invito a darme ideas de usos interesantes de estos data sets.

Tags: ,

2 Responses to “Más data sets de la Wikipedia”

  1. Romeo Cabrera A. Says:

    Sería interesante ver los resultados que devuelve una minería de datos del tipo:

    Determinar las parejas de páginas (K, V), tales que tengan la mayor cantidad de enlaces hacia ellas en común.

    Como un factor adicional, se podría del listado anterior, señalar cuáles parejas (K, V) no se enlazan entre ellas…

  2. X-allam Says:

    Me parece que sería buena idea que Wikipedia ofrezca búsquedas sentimentales (de acuerdo a la clasificación de palabras por grupo «sentimentales») ó por páginas semejantes (analizando los términos)

    Encontré un sitio que puede ayudar con muy buenas ideas de visualización para minería de texto: http://manyeyes.alphaworks.ibm.com/manyeyes/

Leave a Reply