Más data sets de la Wikipedia
Una entrada en el blog de Data Wrangling describe tres data sets de la Wikipedia: el ya conocido raw dump, uno que contiene estadísticas de las frecuencias de visitas a las páginas de la Wikipedia durante 7 meses (el cual ya está subido a los AWS), y uno con la lista de los enlaces de las páginas a otras páginas.
Los invito a darme ideas de usos interesantes de estos data sets.
junio 16th, 2009 at 16:40
Sería interesante ver los resultados que devuelve una minería de datos del tipo:
Determinar las parejas de páginas (K, V), tales que tengan la mayor cantidad de enlaces hacia ellas en común.
Como un factor adicional, se podría del listado anterior, señalar cuáles parejas (K, V) no se enlazan entre ellas…
junio 17th, 2009 at 13:52
Me parece que sería buena idea que Wikipedia ofrezca búsquedas sentimentales (de acuerdo a la clasificación de palabras por grupo «sentimentales») ó por páginas semejantes (analizando los términos)
Encontré un sitio que puede ayudar con muy buenas ideas de visualización para minería de texto: http://manyeyes.alphaworks.ibm.com/manyeyes/