Archive for mayo, 2009

Datasets disponibles en la Web

Lunes, mayo 25th, 2009

En clase surgió la pregunta de qué datasets hay disponibles de manera gratuita para procesar. Hay una lista muy extensa disponible en datawrangling.com, la cual puede servir de punto de partida para ideas de proyectos de procesamiento masivo de datos. La lista es realmente grande, pero vale la pena analizarla ya que hay datasets interesantes, como por ejemplo el de Audioscrobbler, que puede ser usado para sistemas de recomendaciones de música.

En otra entrada en el mismo blog, Peter Skomoroch escribe:

So what can you do with Elastic MapReduce? Here are a few initial ideas:

  • Offload background processing from your Rails or Django app to Hadoop by sending the ElasticMapReduce API job requests pointing to data stored on S3: convert PDFs, classify spam, deduplicate records, batch geocoding, etc.
  • Process large amounts of retail sales and inventory transaction data for sales forecasting and optimization
  • Use the AddJobFlowSteps method in the API to run iterative machine learning algorithms using MapReduce on a remote Hadoop cluster and shut it down when your results converge to an answer

I’ll post more on this later today – including a detailed explanation of using Netflix Prize data in the code example and some next steps for using Elastic MapReduce.

Me parece que lo publicado en ese blog es de interés para la materia, así que lo he añadido al costado de esta página para poder seguirlo con facilidad. 

¿Morirán las datawarehouses?

Viernes, mayo 22nd, 2009

En un paper escrito por alguna gente de Greenplum, los autores argumentan que en la época de la Big Data (muchos muchos datos a ser procesados), los esquemas tradicionales de datawarehousing y business intelligence se vuelven obsoletos. Ellos proponen otra alternativa que han denominado análisis de datos MAD (Magnetic, Agile, Deep). En el paper, dan un ejemplo real de Fox Interactive Media, que antes de la propuesta planteada por Greenplum, recurría a un complejo proceso de datawarehousing+exportar resultados+procesamiento intermedio con scripts+procesamiento con MapReduce (Hadoop). La alternativa de ellos combina SQL y MapReduce en la base de datos de manera nativa, y a decir de los autores, les permitió “volverse locos” (go MAD) con el análisis de datos.

NOTA a los alumnos de la materia: creo que este paper es de interés para todos. Léanlo (no es necesario que lo entiendan al 100%) para poder discutirlo la próxima clase.

¡En sus marcas, listos, fuera!

Viernes, mayo 22nd, 2009

Hoy tuvimos la primera clase de la materia de graduación, y empezamos viendo una introducción a la programación en paralelo y la programación distribuida.

Para que sea más fácil llevarle la pista a las actividades pendientes y entregables, he creado una página llamada “Actividades”. También revisen frecuentemente la página de los proyectos, en donde trataré de publicar información de interés para los diferentes grupos.

Más sobre los AWS

Viernes, mayo 22nd, 2009

El Elastic MapReduce de Amazon promete facilitar el proceso de levantar clusters Hadoop. Todavía no he tenido la oportunidad de probar este nuevo servicio, así que opté por registrarme al Webinar de la próxima semana.

Otro nuevo servicio interesante es el AWS Import/Export que permite enviar los data sets vía correo tradicional en lugar de usar la red. Esto resolvería el problema descrito en otra entrada anterior.

Versión de Hadoop que usaremos

Miércoles, mayo 20th, 2009

En la materia usaremos la versión 0.18 de Hadoop ya que para esa versión es para la que hay más soporte actualmente. El primer paso para poder usar Hadoop es que todos tengan una versión funcional en sus laptops o computadoras personales. En lugar de recurrir a una opción de dual boot e instalación del software, usaremos máquinas virtuales o live CDs.

Yo recomiendo el uso de la máquina virtual distribuida por Cloudera (necesitarán también el VMware Player), pero si lo prefieren pueden usar la máquina virtual del tutorial de Yahoo! o el OpenSolaris Hadoop Live CD. La última alternativa es interesante porque levanta un cluster (virtual) de tres nodos, pero la desventaja es que usa la versión 0.17.1 de Hadoop.

Lo mejor del Cloud Slam ’09

Martes, mayo 19th, 2009

Del 20 al 24 de abril se llevó a cabo el congreso Cloud Slam, en el cual hubieron conferencias a cargo de varios expertos en cloud computing. Estuve revisando la lista de las presentaciones (con vídeos), y pienso que las siguientes son de particular interés para los estudiantes de la materia de graduación:

Amazon anuncia lo nuevo en EC2

Martes, mayo 19th, 2009

Amazon acaba de anunciar algunas novedades de EC2. Entre ellas, encuentro muy interesante el Amazon CloudWatch, que nos permitirá monitorear los trabajos y el rendimiento de los procesos MapReduce que ejecutemos en EC2.

Cloud computing para analizar el genoma humano

Martes, mayo 19th, 2009

En una entrada anterior, indiqué que las comunidades científicas están empezando a usar cloud computing para resolver problemas que requieren mucha capacidad de procesamiento, en lugar de los tradicionales grids (como por ejemplo, el TeraGrid). Ahora, en otra noticia publicada por la ACM, se indica que gente de la universidad de Maryland está usando cloud computing para procesar el genoma humando, sin tener que recurrir a costosos clusters de computadoras. Al momento han tenido resultados exitosos, pero han notado que—al menos para ellos—la dificultad radica en subir los datos a la “nube”.

Grid computing vs. cloud computing para computaciones científicas

Martes, mayo 19th, 2009

Un equipo de investigación del Argonne National Lab de EE.UU. está trabajando en una plataforma para procesamiento científico usando cloud computing (en lugar del grid computing usado tradicionalmente por esas comunidades). Más detalles en la página de la NSF.

Información útil en el blog de Cloudera

Martes, mayo 19th, 2009

La gente de Cloudera frecuentemente publica información que nos será de gran utilidad en la materia. Por ejemplo, hay una entrada que ayuda a despejar muchas dudas comunes sobre Hadoop y otra que proporciona 10 tips para desarrolladores que deseen usar MapReduce (Hadoop).