Posts Tagged ‘hadoop’

Sqoop: SQL-to-Hadoop

lunes, junio 8th, 2009

La gente de Cloudera ha desarrollado una herramienta llamada Sqoop, que sirve para facilitar el proceso de importar datos de una base de datos al HDFS. Más información, incluyendo unas diapositivas muy explicativas, en el blog de Cloudera.

How to Debug MapReduce Programs

lunes, junio 8th, 2009

El proceso de debugging para programas MapReduce suele ser más complejo que para programas no distribuidos. Una página en el Wiki de Hadoop contiene varios tips que pueden hacer este proceso más sencillo.

Opera busca un Hadoop Engineer

miércoles, junio 3rd, 2009

A través de la lista core-user de hadoop, acabo de recibir la siguiente info.:

From: Usman Waheed <usmanw@opera.com>
To: core-user@hadoop.apache.org
Date: Wed, 03 Jun 2009 15:05:56 +0200
Subject: Opera Software AS – Job Opening: Hadoop Engineer
Greetings All,

Opera Software AS (www.opera.com) in Oslo/Norway is looking for an experienced Hadoop Engineer to join the Statistics Team in order to provide business intelligence metrics both internally and to our customers.
If you have the experience and are willing to relocate to beautiful Oslo/Norway please contact me at usmanw@opera.com.
Kindly don’t forget to attach your resume and specify «Opera Software AS – Job Opening: Hadoop Engineer» in the subject line of the email.

Best Regards,
Usman

Pienso que durante este año y el próximo, muchas empresas van a empezar a necesitar gente con experiencia de desarrollo en Hadoop, por lo que adquirir un buen nivel de destreza en esta herramienta será de mucho beneficio para mejorar las oportunidades laborales.

¿Morirán las datawarehouses?

viernes, mayo 22nd, 2009

En un paper escrito por alguna gente de Greenplum, los autores argumentan que en la época de la Big Data (muchos muchos datos a ser procesados), los esquemas tradicionales de datawarehousing y business intelligence se vuelven obsoletos. Ellos proponen otra alternativa que han denominado análisis de datos MAD (Magnetic, Agile, Deep). En el paper, dan un ejemplo real de Fox Interactive Media, que antes de la propuesta planteada por Greenplum, recurría a un complejo proceso de datawarehousing+exportar resultados+procesamiento intermedio con scripts+procesamiento con MapReduce (Hadoop). La alternativa de ellos combina SQL y MapReduce en la base de datos de manera nativa, y a decir de los autores, les permitió «volverse locos» (go MAD) con el análisis de datos.

NOTA a los alumnos de la materia: creo que este paper es de interés para todos. Léanlo (no es necesario que lo entiendan al 100%) para poder discutirlo la próxima clase.

Más sobre los AWS

viernes, mayo 22nd, 2009

El Elastic MapReduce de Amazon promete facilitar el proceso de levantar clusters Hadoop. Todavía no he tenido la oportunidad de probar este nuevo servicio, así que opté por registrarme al Webinar de la próxima semana.

Otro nuevo servicio interesante es el AWS Import/Export que permite enviar los data sets vía correo tradicional en lugar de usar la red. Esto resolvería el problema descrito en otra entrada anterior.

Versión de Hadoop que usaremos

miércoles, mayo 20th, 2009

En la materia usaremos la versión 0.18 de Hadoop ya que para esa versión es para la que hay más soporte actualmente. El primer paso para poder usar Hadoop es que todos tengan una versión funcional en sus laptops o computadoras personales. En lugar de recurrir a una opción de dual boot e instalación del software, usaremos máquinas virtuales o live CDs.

Yo recomiendo el uso de la máquina virtual distribuida por Cloudera (necesitarán también el VMware Player), pero si lo prefieren pueden usar la máquina virtual del tutorial de Yahoo! o el OpenSolaris Hadoop Live CD. La última alternativa es interesante porque levanta un cluster (virtual) de tres nodos, pero la desventaja es que usa la versión 0.17.1 de Hadoop.

Lo mejor del Cloud Slam ’09

martes, mayo 19th, 2009

Del 20 al 24 de abril se llevó a cabo el congreso Cloud Slam, en el cual hubieron conferencias a cargo de varios expertos en cloud computing. Estuve revisando la lista de las presentaciones (con vídeos), y pienso que las siguientes son de particular interés para los estudiantes de la materia de graduación:

Amazon anuncia lo nuevo en EC2

martes, mayo 19th, 2009

Amazon acaba de anunciar algunas novedades de EC2. Entre ellas, encuentro muy interesante el Amazon CloudWatch, que nos permitirá monitorear los trabajos y el rendimiento de los procesos MapReduce que ejecutemos en EC2.

Información útil en el blog de Cloudera

martes, mayo 19th, 2009

La gente de Cloudera frecuentemente publica información que nos será de gran utilidad en la materia. Por ejemplo, hay una entrada que ayuda a despejar muchas dudas comunes sobre Hadoop y otra que proporciona 10 tips para desarrolladores que deseen usar MapReduce (Hadoop).

Usando los scripts de Cloudera para procesar la Wikipedia

martes, mayo 12th, 2009

Hay una entrada muy detallada en el blog de Cloudera que demuestra paso a paso como usar los scripts de Cloudera para procesar la Wikipedia, usando Hadoop corriendo en EC2 y una versión separada por tabs (TSV) de la Wikipedia que está disponible de manera gratuita en S3. La información está detallada a manera de tutorial, y nos será muy útil en la materia de graduación; sobre todo porque 3 grupos trabajarán procesando la Wikipedia (pistas: ¿qué se sabe de Ecuador en la Wikipedia?, ¿qué se sabe de Guayaquil en la Wikipedia?, WikiGrep… más detalles el primer día de clases).