Datasets disponibles en la Web
lunes, mayo 25th, 2009En clase surgió la pregunta de qué datasets hay disponibles de manera gratuita para procesar. Hay una lista muy extensa disponible en datawrangling.com, la cual puede servir de punto de partida para ideas de proyectos de procesamiento masivo de datos. La lista es realmente grande, pero vale la pena analizarla ya que hay datasets interesantes, como por ejemplo el de Audioscrobbler, que puede ser usado para sistemas de recomendaciones de música.
En otra entrada en el mismo blog, Peter Skomoroch escribe:
So what can you do with Elastic MapReduce? Here are a few initial ideas:
- Offload background processing from your Rails or Django app to Hadoop by sending the ElasticMapReduce API job requests pointing to data stored on S3: convert PDFs, classify spam, deduplicate records, batch geocoding, etc.
- Process large amounts of retail sales and inventory transaction data for sales forecasting and optimization
- Use the AddJobFlowSteps method in the API to run iterative machine learning algorithms using MapReduce on a remote Hadoop cluster and shut it down when your results converge to an answer
I’ll post more on this later today – including a detailed explanation of using Netflix Prize data in the code example and some next steps for using Elastic MapReduce.
Me parece que lo publicado en ese blog es de interés para la materia, así que lo he añadido al costado de esta página para poder seguirlo con facilidad.