{"id":292,"date":"2009-11-18T09:35:25","date_gmt":"2009-11-18T14:35:25","guid":{"rendered":"http:\/\/blog.espol.edu.ec\/hadoop\/?p=292"},"modified":"2009-11-18T09:36:24","modified_gmt":"2009-11-18T14:36:24","slug":"lzo","status":"publish","type":"post","link":"https:\/\/blog.espol.edu.ec\/hadoop\/2009\/11\/18\/lzo\/","title":{"rendered":"Tip de rendimiento: Usar compresi\u00f3n LZO para archivos de entrada en Hadoop"},"content":{"rendered":"<p><a href=\"http:\/\/twitter.com\/kevinWeil\">Kevin Weil<\/a>\u00a0de Twitter (a quien mencion\u00e9\u00a0en mi entrada anterior) acaba de publicar en el blog de <a href=\"http:\/\/www.cloudera.com\/blog\">Cloudera<\/a> un <a href=\"http:\/\/www.cloudera.com\/blog\/2009\/11\/17\/hadoop-at-twitter-part-1-splittable-lzo-compression\/\">tutorial sobre como usar archivos con compresi\u00f3n LZO<\/a>.\u00a0La compresi\u00f3n LZO resulta m\u00e1s adecuada que los algoritmos gzip y bz2 para el procesamiento masivo de datos con Hadoop. Gzip no puede ser usado en Hadoop porque un bloque (chunk) independiente de un gran archivo no puede descomprimirse sin conocer la informaci\u00f3n de los bloques anteriores; es decir, no se puede trabajar en paralelo con pedazos de archivos grandes. Bz2 s\u00ed puede ser usado en Hadoop, pero tiene la desventaja de ser muy lento, lo cual hace que una gran parte de lo que se gana en reducir E\/S al usar compresi\u00f3n, se pierde debido a la sobrecarga de CPU requerida para las operaciones de descompresi\u00f3n. LZO tiene la ventaja de poder descomprimirse en paralelo y de manera muy r\u00e1pida, lo que lo hace ideal para Hadoop.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Kevin Weil\u00a0de Twitter (a quien mencion\u00e9\u00a0en mi entrada anterior) acaba de publicar en el blog de Cloudera un tutorial sobre como usar archivos con compresi\u00f3n LZO.\u00a0La compresi\u00f3n LZO resulta m\u00e1s adecuada que los algoritmos gzip y bz2 para el procesamiento masivo de datos con Hadoop. Gzip no puede ser usado en Hadoop porque un bloque [&hellip;]<\/p>\n","protected":false},"author":1510,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[945],"tags":[13343,6120,13344,2860,13342],"class_list":["post-292","post","type-post","status-publish","format-standard","hentry","category-desarrollo","tag-bz2","tag-cloudera","tag-gzip","tag-hadoop","tag-lzo"],"_links":{"self":[{"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/posts\/292","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/users\/1510"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/comments?post=292"}],"version-history":[{"count":3,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/posts\/292\/revisions"}],"predecessor-version":[{"id":295,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/posts\/292\/revisions\/295"}],"wp:attachment":[{"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/media?parent=292"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/categories?post=292"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.espol.edu.ec\/hadoop\/wp-json\/wp\/v2\/tags?post=292"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}