El PiggyBank: Funciones definidas por usuarios
El repositorio de funciones definidas por usuarios (UDFs) para el manejo de datos en Pig se llama, muy apropiadamente, PiggyBank. Entre las funciones disponibles en el repositorio encontramos operaciones matemáticas, UPPER (para la conversión de strings a mayúsculas), y unas para el uso de expresiones regulares (con lo que fácilmente se puede definir cualquier tipo de dato especial).
Una entrada reciente en el blog de Cloudera muestra cómo usar el PiggyBank para el analizar logs de las descargas de los proyectos de Apache.