Datasets disponibles en la Web

En clase surgió la pregunta de qué datasets hay disponibles de manera gratuita para procesar. Hay una lista muy extensa disponible en datawrangling.com, la cual puede servir de punto de partida para ideas de proyectos de procesamiento masivo de datos. La lista es realmente grande, pero vale la pena analizarla ya que hay datasets interesantes, como por ejemplo el de Audioscrobbler, que puede ser usado para sistemas de recomendaciones de música.

En otra entrada en el mismo blog, Peter Skomoroch escribe:

So what can you do with Elastic MapReduce? Here are a few initial ideas:

  • Offload background processing from your Rails or Django app to Hadoop by sending the ElasticMapReduce API job requests pointing to data stored on S3: convert PDFs, classify spam, deduplicate records, batch geocoding, etc.
  • Process large amounts of retail sales and inventory transaction data for sales forecasting and optimization
  • Use the AddJobFlowSteps method in the API to run iterative machine learning algorithms using MapReduce on a remote Hadoop cluster and shut it down when your results converge to an answer

I’ll post more on this later today – including a detailed explanation of using Netflix Prize data in the code example and some next steps for using Elastic MapReduce.

Me parece que lo publicado en ese blog es de interés para la materia, así que lo he añadido al costado de esta página para poder seguirlo con facilidad. 

Tags:

9 Responses to “Datasets disponibles en la Web”

  1. Mervyn Macías Says:

    Ingeniera, buenas tardes

    Quería preguntarle si podría elegir el tema de recomendacion musical, ya que durante este fin de semana que paso estuve investigando y encontré un dataset llamado metabranz con el cual podría iniciar… Yo le estaría enviando el detalle del proyecto durante esta semana para sus observaciones, pero no sabría si enviarselo por el blog o a su correo.

    Saludos

  2. cristina.abad Says:

    Ok, no hay problema. ¿Cuál tema habían escogido ustedes originalmente?

    Sobre si enviar preguntas vía e-mail o por el blog, en general prefiero que se publiquen como comentarios en el blog. De esta manera, todos están enterados del progreso de los otros grupos. Aunque en ocasiones, la complejidad de la pregunta o alguna otra razón específica puede justificar que la pregunta sea vía e-mail.

  3. Washington Says:

    Encontre una pagina interesante en la que pueden encontrar muchos papers en caso de que necesiten para alguno de sus temas y de referencia
    http://citeseerx.ist.psu.edu
    Seria bueno que si se encuentra temas relacionados con cada uno de los proyectos se publiquen los links para poder investigar mas.
    Saludos

  4. cristina.abad Says:

    Gracias por el enlace. Yo uso Citeseer desde hace muchos años, pero no sabía que ahora existe CiteseerX. Esta es una buena alternativa o complemento a Scholar. Por cierto, he creado una página llamada Referencias bibliográficas en donde iré añadiendo papers que me parece son de interés para todos o muchos de los grupos. Si alguien encuentra un paper que cree será de interés general, lo puede publicar aquí o mandármelo vía e-mail para yo añadirlo a la lista.

  5. Romeo Cabrera A. Says:

    Nos podría por favor indicar el link para el ejercicio en java que hicimos en clase?? Gracias.

    Para los que estén interesados en hacer sus algoritmos de MapReduce en un lenguaje que no sea java, les comparto dos ejemplos hechos en PHP:

    http://www.lunchpauze.com/2007/10/writing-hadoop-mapreduce-program-in-php.html

    http://www.koopman.me/2009/04/hadoop-streaming-with-php/

  6. cristina.abad Says:

    No puedo publicar el documento en la Web, ya que no tengo permiso para ello, pero está basado en el Lab 1 disponible en: http://code.google.com/edu/submissions/uwspr2007_clustercourse/listing.html.

  7. Romeo Cabrera Says:

    Ok gracias,

    Por cierto, para quienes necesiten una VM más ligera, aquí hay opciones:

    http://www.thoughtpolice.co.uk/vmware/

    En lo personal, utilicé el Ubuntu Jaunty (9.04), aunque el Hardy (8.04) debería ser suficiente.

    Con el tutorial fue sencillo: http://www.cloudera.com/hadoop-deb

  8. cristina.abad Says:

    Sería bueno que comparta la imágen generada con otros estudiantes de la materia que estén interesados. Pienso que es bueno que adquieran experiencia en el proceso de instalar hadoop (muy sencillo con ese tutorial), pero no es necesario para el desarrollo del proyecto, y usar una máquina virtual más ligera puede ser de interés para muchos. Según su percepción, ¿es notoria la diferencia en rendimiento entre la VM de Cloudera y la nueva generada?

  9. Romeo Cabrera A. Says:

    Dejé una respuesta en el foro respectivo, para no desviarnos del tema original de este post:

    http://ecua.com/PMED/foro/viewtopic.php?f=5&t=3

Leave a Reply