Hadoop input formats
martes, junio 23rd, 2009A más del TextInputFormat
(cada registro es una línea de un archivo de texto) usado por defecto, Hadoop soporta varios formatos de entrada para los mappers. Por ejemplo,
WholeFileInputFormat
: Cada registro es un archivo completo. No utiliza keys (NullWritable
). Los valores son instancias deBytesWritable
. Usando esta clase como formato de entrada para los mappers, nos permite asegurar que un mapper reciba el contenido de un archivo completo (a manera de arreglo de bytes). En el libro Hadoop: The definitive guide (págs. 193-196) hay una explicación detallada de cómo usar esta clase.KeyValueTextInputFormat
: Cada registro es una línea de texto. Utilizado para leer de archivos de texto en los que cada línea representa una tupla <key, value> (por ejemplo, los archivos generados por los reducers que emitenTextOutputFormat
). El delimitador entre la clave y el valor es configurable (TAB por defecto).StreamInputFormat
en combinación conStreamXmlRecordReader
: Cada registro es un «registro» XML. Los tags de inicio y fin del «registro» XML son configurables.DBInputFormat
: permite leer datos de una base de datos relacional, vía JDBC. Hay una entrada detallando el uso de esta clase en el blog de Cloudera.