Posts Tagged ‘yahoo’

¿Tendrá Hadoop problemas de incompatibilidad en el futuro?

miércoles, junio 10th, 2009

En un post en los foros de la materia, Romeo Cabrera publicó información sobre la nueva distribución de Hadoop liberada por Yahoo!, y sobre una alternativa a Hive que Yahoo! planea lanzar en un futuro. Lo bueno de todo esto, es que mientras más respaldo tenga Hadoop y sus sub-proyectos de gigantes como Yahoo!, más probable es que otras empresas conozcan de las ventajas de esta herramienta para el procesamiento masivo de datos y se animen a adoptarla (o al menos, probarla). Por otro lado, el problema que se puede presentar es que a medida que empresas como Cloudera y Yahoo! empiezan a parchar el código de Apache Hadoop de manera independiente, surjan incompatibilidades y problemas difíciles de rastrear.

Versión de Hadoop que usaremos

miércoles, mayo 20th, 2009

En la materia usaremos la versión 0.18 de Hadoop ya que para esa versión es para la que hay más soporte actualmente. El primer paso para poder usar Hadoop es que todos tengan una versión funcional en sus laptops o computadoras personales. En lugar de recurrir a una opción de dual boot e instalación del software, usaremos máquinas virtuales o live CDs.

Yo recomiendo el uso de la máquina virtual distribuida por Cloudera (necesitarán también el VMware Player), pero si lo prefieren pueden usar la máquina virtual del tutorial de Yahoo! o el OpenSolaris Hadoop Live CD. La última alternativa es interesante porque levanta un cluster (virtual) de tres nodos, pero la desventaja es que usa la versión 0.17.1 de Hadoop.

Microsoft usa Hadoop

lunes, mayo 11th, 2009

En un comentario en este blog, Romeo Cabrera enlazó una noticia sobre el nuevo proyecto de búsqueda Web de Microsoft: Kumo. Con su nueva máquina de búsquedas Microsoft busca reposicionarse en el mercado de las búsquedas Web, liderado por Google y Yahoo!. Después de ocupar un distante tercer puesto por mucho tiempo, por fin se han dado cuenta que el enfoque MapReduce/GFS/BigTable de Google (el cual inspiró la combinación open source Hadoop/HDFS/HBase financiada principalmente por Yahoo!) es actualmente la mejor manera de atacar el problema del procesamiento masivo de datos (crucial para búsquedas Web).

En el 2007 Yahoo! logró mejorar considerablemente sus búsquedas y consecuentemente recuperar parte del mercado. Un elemento clave en el rediseño de las búsquedas de Yahoo! fue la adopción de Hadoop y otras tecnologías open source inspiradas en los desarrollos (propietarios) de Google. El resultado fue bueno para Yahoo! pero malo para Microsoft, que continuó perdiendo terreno. Como solución al problema, Microsoft intentó comprar Yahoo! en el 2008, pero la compra no se concretó. En vista de esto, vemos ahora a Microsoft invirtiendo en Kumo y cediendo por fin ante las ventajas del open source.

Hadoop Summit ’09

miércoles, mayo 6th, 2009

Yahoo! acaba de anunciar el Hadoop Summit 2009 que se llevará a cabo el 10 de junio en Santa Clara, CA. El evento se concentrará en los avances que se han hecho en el último año en cuanto al desarrollo e implementación de Hadoop y tecnologías relacionadas (como Pig, por ejemplo). También habrán presentaciones sobre aplicaciones que usan Hadoop de manera innovadora.

Entre los conferencistas, hay gente de Amazon, IBM, Facebook, Yahoo!, Sun y Microsoft. El Hadoop Summit 2008 fue todo un éxito, y parece que el de este año será igual.

Adicionalmente, en el día posterior al evento Cloudera y Yahoo! otorgorán entrenamiento básico y avanzado sobre Hadoop y herramientas relacionadas, sin costo. El entrenamiento básico supongo que será similar al que recibí en el «2008 NSF Data-Intensive Scalable Computing in Education Workshop«, cuyos instructores Christophe Bisciglia (antes de Google) y Aaron Kimball forman parte del equipo fundador de Cloudera.

Apache Cloud Computing Edition

jueves, abril 30th, 2009

Apache está trabajando en una versión para Cloud Computing. La idea surge del hecho de que actualmente existen varios proveedores de servicios de cloud computing, entre ellos Amazon (con los Amazon Web Services), HP e IBM. Lastimosamente, no existe una pila estándar de Apache para ambientes de cloud computing. Por esta razón surgen problemas de incompatibilidad, lentitud en el desarrollo, dificultades para la identificación y solución de bugs, dificultad (y hasta imposibilidad) de migrar el sistema a otra plataforma de cloud computing, etc. Hay una muy buena presentación sobre el tema disponible en el website de Apache. Recomiendo empezar en la página 31, ya que las páginas 31-60 contienen las diapositivas 1-30 pero con comentarios.