Cloud Computing, MapReduce y Hadoop » Blog Archive » Tip de rendimiento: Usar compresión LZO para archivos de entrada en Hadoop

Tip de rendimiento: Usar compresión LZO para archivos de entrada en Hadoop

Kevin Weil de Twitter (a quien mencioné en mi entrada anterior) acaba de publicar en el blog de Cloudera un tutorial sobre como usar archivos con compresión LZO. La compresión LZO resulta más adecuada que los algoritmos gzip y bz2 para el procesamiento masivo de datos con Hadoop. Gzip no puede ser usado en Hadoop porque un bloque (chunk) independiente de un gran archivo no puede descomprimirse sin conocer la información de los bloques anteriores; es decir, no se puede trabajar en paralelo con pedazos de archivos grandes. Bz2 sí puede ser usado en Hadoop, pero tiene la desventaja de ser muy lento, lo cual hace que una gran parte de lo que se gana en reducir E/S al usar compresión, se pierde debido a la sobrecarga de CPU requerida para las operaciones de descompresión. LZO tiene la ventaja de poder descomprimirse en paralelo y de manera muy rápida, lo que lo hace ideal para Hadoop.

Tags: bz2, cloudera, gzip, hadoop, lzo

This entry was posted on miércoles, noviembre 18th, 2009 at 09:35 and is filed under Desarrollo. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

Tip de rendimiento: Usar compresión LZO para archivos de entrada en Hadoop

Leave a Reply