Posts Tagged ‘hadoop’

Microsoft usa Hadoop

lunes, mayo 11th, 2009

En un comentario en este blog, Romeo Cabrera enlazó una noticia sobre el nuevo proyecto de búsqueda Web de Microsoft: Kumo. Con su nueva máquina de búsquedas Microsoft busca reposicionarse en el mercado de las búsquedas Web, liderado por Google y Yahoo!. Después de ocupar un distante tercer puesto por mucho tiempo, por fin se han dado cuenta que el enfoque MapReduce/GFS/BigTable de Google (el cual inspiró la combinación open source Hadoop/HDFS/HBase financiada principalmente por Yahoo!) es actualmente la mejor manera de atacar el problema del procesamiento masivo de datos (crucial para búsquedas Web).

En el 2007 Yahoo! logró mejorar considerablemente sus búsquedas y consecuentemente recuperar parte del mercado. Un elemento clave en el rediseño de las búsquedas de Yahoo! fue la adopción de Hadoop y otras tecnologías open source inspiradas en los desarrollos (propietarios) de Google. El resultado fue bueno para Yahoo! pero malo para Microsoft, que continuó perdiendo terreno. Como solución al problema, Microsoft intentó comprar Yahoo! en el 2008, pero la compra no se concretó. En vista de esto, vemos ahora a Microsoft invirtiendo en Kumo y cediendo por fin ante las ventajas del open source.

Lo nuevo en el Hadoop Core 0.20

viernes, mayo 8th, 2009

El Hadoop core 0.20 tiene algunas mejoras sobre las versiones anteriores. Por ejemplo, se ha empezado a incluir características de seguridad. Entre los cambios más drásticos tenemos un nuevo API MapReduce, incompatible con el anterior.

Todavía no sé con cuál API trabajaremos en la materia de graduación, debido a que no sé cuán rápido actualicen la máquina virtual de Cloudera y los images de EC2 (AWS).

Hay más información sobre los cambios en el blog de Cloudera.

Hadoop Summit ’09

miércoles, mayo 6th, 2009

Yahoo! acaba de anunciar el Hadoop Summit 2009 que se llevará a cabo el 10 de junio en Santa Clara, CA. El evento se concentrará en los avances que se han hecho en el último año en cuanto al desarrollo e implementación de Hadoop y tecnologías relacionadas (como Pig, por ejemplo). También habrán presentaciones sobre aplicaciones que usan Hadoop de manera innovadora.

Entre los conferencistas, hay gente de Amazon, IBM, Facebook, Yahoo!, Sun y Microsoft. El Hadoop Summit 2008 fue todo un éxito, y parece que el de este año será igual.

Adicionalmente, en el día posterior al evento Cloudera y Yahoo! otorgorán entrenamiento básico y avanzado sobre Hadoop y herramientas relacionadas, sin costo. El entrenamiento básico supongo que será similar al que recibí en el «2008 NSF Data-Intensive Scalable Computing in Education Workshop«, cuyos instructores Christophe Bisciglia (antes de Google) y Aaron Kimball forman parte del equipo fundador de Cloudera.

Apache Cloud Computing Edition

jueves, abril 30th, 2009

Apache está trabajando en una versión para Cloud Computing. La idea surge del hecho de que actualmente existen varios proveedores de servicios de cloud computing, entre ellos Amazon (con los Amazon Web Services), HP e IBM. Lastimosamente, no existe una pila estándar de Apache para ambientes de cloud computing. Por esta razón surgen problemas de incompatibilidad, lentitud en el desarrollo, dificultades para la identificación y solución de bugs, dificultad (y hasta imposibilidad) de migrar el sistema a otra plataforma de cloud computing, etc. Hay una muy buena presentación sobre el tema disponible en el website de Apache. Recomiendo empezar en la página 31, ya que las páginas 31-60 contienen las diapositivas 1-30 pero con comentarios.

Difusión sobre Hadoop

miércoles, abril 22nd, 2009

Allan Avendaño nos ayudó en la difusión del uso de Hadoop para ambientes de cloud computing, dictando una charla en el Flisol. El resumen, material de la charla y hoja de vida de Allan están disponibles en la página del evento.

SQL versus MapReduce?

miércoles, abril 22nd, 2009

En los últimos días se han publicado varios artículos sobre un paper titulado «A Comparison of Approaches to Large-Scale Data Analysis», el cual compara el rendimiento de análisis de datos usando MapReduce (Hadoop) y SQL (en dos bases de datos: Vertica y una comercial no identificada). Los resultados: SQL es más eficiente en las consultas mientras que Hadoop es más eficiente al momento de cargar/leer los datos. El problema del estudio realizado es que los investigadores (uno de ellos asociado con Microsoft) escogieron problemas para los cuales SQL es obviamente más apropiado. El paper trata de comparar ambas tecnologías como si fueran equivalentes y la una pudiera reemplazar a la otra. En realidad, ambas tecnologías fueron diseñadas para resolver problemas distintos y pueden llegar a ser complementarias. En el futuro, MapReduce y SQL co-existirán, como ya lo están sugiriendo la gente de Aster.

Elastic MapReduce

miércoles, abril 22nd, 2009

Amazon anunció que pone a disposición su servicio Elastic MapReduce, el cual permite levantar clusters Hadoop de manera eficiente y económica. El nuevo servicio representa una mejora a lo que anteriormente se podía hacer con EC2 y hadoop en AWS.