Posts Tagged ‘pig’

El PiggyBank: Funciones definidas por usuarios

miércoles, junio 17th, 2009

El repositorio de funciones definidas por usuarios (UDFs) para el manejo de datos en Pig se llama, muy apropiadamente, PiggyBank. Entre las funciones disponibles en el repositorio encontramos operaciones matemáticas, UPPER (para la conversión de strings a mayúsculas), y unas para el uso de expresiones regulares (con lo que fácilmente se puede definir cualquier tipo de dato especial).

Una entrada reciente en el blog de Cloudera muestra cómo usar el PiggyBank para el analizar logs de las descargas de los proyectos de Apache.

¿Tendrá Hadoop problemas de incompatibilidad en el futuro?

miércoles, junio 10th, 2009

En un post en los foros de la materia, Romeo Cabrera publicó información sobre la nueva distribución de Hadoop liberada por Yahoo!, y sobre una alternativa a Hive que Yahoo! planea lanzar en un futuro. Lo bueno de todo esto, es que mientras más respaldo tenga Hadoop y sus sub-proyectos de gigantes como Yahoo!, más probable es que otras empresas conozcan de las ventajas de esta herramienta para el procesamiento masivo de datos y se animen a adoptarla (o al menos, probarla). Por otro lado, el problema que se puede presentar es que a medida que empresas como Cloudera y Yahoo! empiezan a parchar el código de Apache Hadoop de manera independiente, surjan incompatibilidades y problemas difíciles de rastrear.