Posts Tagged ‘cloudera’

Tip de rendimiento: Usar compresión LZO para archivos de entrada en Hadoop

miércoles, noviembre 18th, 2009

Kevin Weil de Twitter (a quien mencioné en mi entrada anterior) acaba de publicar en el blog de Cloudera un tutorial sobre como usar archivos con compresión LZO. La compresión LZO resulta más adecuada que los algoritmos gzip y bz2 para el procesamiento masivo de datos con Hadoop. Gzip no puede ser usado en Hadoop porque un bloque (chunk) independiente de un gran archivo no puede descomprimirse sin conocer la información de los bloques anteriores; es decir, no se puede trabajar en paralelo con pedazos de archivos grandes. Bz2 sí puede ser usado en Hadoop, pero tiene la desventaja de ser muy lento, lo cual hace que una gran parte de lo que se gana en reducir E/S al usar compresión, se pierde debido a la sobrecarga de CPU requerida para las operaciones de descompresión. LZO tiene la ventaja de poder descomprimirse en paralelo y de manera muy rápida, lo que lo hace ideal para Hadoop.

¿Tendrá Hadoop problemas de incompatibilidad en el futuro?

miércoles, junio 10th, 2009

En un post en los foros de la materia, Romeo Cabrera publicó información sobre la nueva distribución de Hadoop liberada por Yahoo!, y sobre una alternativa a Hive que Yahoo! planea lanzar en un futuro. Lo bueno de todo esto, es que mientras más respaldo tenga Hadoop y sus sub-proyectos de gigantes como Yahoo!, más probable es que otras empresas conozcan de las ventajas de esta herramienta para el procesamiento masivo de datos y se animen a adoptarla (o al menos, probarla). Por otro lado, el problema que se puede presentar es que a medida que empresas como Cloudera y Yahoo! empiezan a parchar el código de Apache Hadoop de manera independiente, surjan incompatibilidades y problemas difíciles de rastrear.

Sqoop: SQL-to-Hadoop

lunes, junio 8th, 2009

La gente de Cloudera ha desarrollado una herramienta llamada Sqoop, que sirve para facilitar el proceso de importar datos de una base de datos al HDFS. Más información, incluyendo unas diapositivas muy explicativas, en el blog de Cloudera.

Versión de Hadoop que usaremos

miércoles, mayo 20th, 2009

En la materia usaremos la versión 0.18 de Hadoop ya que para esa versión es para la que hay más soporte actualmente. El primer paso para poder usar Hadoop es que todos tengan una versión funcional en sus laptops o computadoras personales. En lugar de recurrir a una opción de dual boot e instalación del software, usaremos máquinas virtuales o live CDs.

Yo recomiendo el uso de la máquina virtual distribuida por Cloudera (necesitarán también el VMware Player), pero si lo prefieren pueden usar la máquina virtual del tutorial de Yahoo! o el OpenSolaris Hadoop Live CD. La última alternativa es interesante porque levanta un cluster (virtual) de tres nodos, pero la desventaja es que usa la versión 0.17.1 de Hadoop.

Información útil en el blog de Cloudera

martes, mayo 19th, 2009

La gente de Cloudera frecuentemente publica información que nos será de gran utilidad en la materia. Por ejemplo, hay una entrada que ayuda a despejar muchas dudas comunes sobre Hadoop y otra que proporciona 10 tips para desarrolladores que deseen usar MapReduce (Hadoop).

Usando los scripts de Cloudera para procesar la Wikipedia

martes, mayo 12th, 2009

Hay una entrada muy detallada en el blog de Cloudera que demuestra paso a paso como usar los scripts de Cloudera para procesar la Wikipedia, usando Hadoop corriendo en EC2 y una versión separada por tabs (TSV) de la Wikipedia que está disponible de manera gratuita en S3. La información está detallada a manera de tutorial, y nos será muy útil en la materia de graduación; sobre todo porque 3 grupos trabajarán procesando la Wikipedia (pistas: ¿qué se sabe de Ecuador en la Wikipedia?, ¿qué se sabe de Guayaquil en la Wikipedia?, WikiGrep… más detalles el primer día de clases).

Hadoop Summit ’09

miércoles, mayo 6th, 2009

Yahoo! acaba de anunciar el Hadoop Summit 2009 que se llevará a cabo el 10 de junio en Santa Clara, CA. El evento se concentrará en los avances que se han hecho en el último año en cuanto al desarrollo e implementación de Hadoop y tecnologías relacionadas (como Pig, por ejemplo). También habrán presentaciones sobre aplicaciones que usan Hadoop de manera innovadora.

Entre los conferencistas, hay gente de Amazon, IBM, Facebook, Yahoo!, Sun y Microsoft. El Hadoop Summit 2008 fue todo un éxito, y parece que el de este año será igual.

Adicionalmente, en el día posterior al evento Cloudera y Yahoo! otorgorán entrenamiento básico y avanzado sobre Hadoop y herramientas relacionadas, sin costo. El entrenamiento básico supongo que será similar al que recibí en el «2008 NSF Data-Intensive Scalable Computing in Education Workshop«, cuyos instructores Christophe Bisciglia (antes de Google) y Aaron Kimball forman parte del equipo fundador de Cloudera.