Microsoft usa Hadoop

mayo 11th, 2009

En un comentario en este blog, Romeo Cabrera enlazó una noticia sobre el nuevo proyecto de búsqueda Web de Microsoft: Kumo. Con su nueva máquina de búsquedas Microsoft busca reposicionarse en el mercado de las búsquedas Web, liderado por Google y Yahoo!. Después de ocupar un distante tercer puesto por mucho tiempo, por fin se han dado cuenta que el enfoque MapReduce/GFS/BigTable de Google (el cual inspiró la combinación open source Hadoop/HDFS/HBase financiada principalmente por Yahoo!) es actualmente la mejor manera de atacar el problema del procesamiento masivo de datos (crucial para búsquedas Web).

En el 2007 Yahoo! logró mejorar considerablemente sus búsquedas y consecuentemente recuperar parte del mercado. Un elemento clave en el rediseño de las búsquedas de Yahoo! fue la adopción de Hadoop y otras tecnologías open source inspiradas en los desarrollos (propietarios) de Google. El resultado fue bueno para Yahoo! pero malo para Microsoft, que continuó perdiendo terreno. Como solución al problema, Microsoft intentó comprar Yahoo! en el 2008, pero la compra no se concretó. En vista de esto, vemos ahora a Microsoft invirtiendo en Kumo y cediendo por fin ante las ventajas del open source.

Lo nuevo en el Hadoop Core 0.20

mayo 8th, 2009

El Hadoop core 0.20 tiene algunas mejoras sobre las versiones anteriores. Por ejemplo, se ha empezado a incluir características de seguridad. Entre los cambios más drásticos tenemos un nuevo API MapReduce, incompatible con el anterior.

Todavía no sé con cuál API trabajaremos en la materia de graduación, debido a que no sé cuán rápido actualicen la máquina virtual de Cloudera y los images de EC2 (AWS).

Hay más información sobre los cambios en el blog de Cloudera.

Hadoop Summit ’09

mayo 6th, 2009

Yahoo! acaba de anunciar el Hadoop Summit 2009 que se llevará a cabo el 10 de junio en Santa Clara, CA. El evento se concentrará en los avances que se han hecho en el último año en cuanto al desarrollo e implementación de Hadoop y tecnologías relacionadas (como Pig, por ejemplo). También habrán presentaciones sobre aplicaciones que usan Hadoop de manera innovadora.

Entre los conferencistas, hay gente de Amazon, IBM, Facebook, Yahoo!, Sun y Microsoft. El Hadoop Summit 2008 fue todo un éxito, y parece que el de este año será igual.

Adicionalmente, en el día posterior al evento Cloudera y Yahoo! otorgorán entrenamiento básico y avanzado sobre Hadoop y herramientas relacionadas, sin costo. El entrenamiento básico supongo que será similar al que recibí en el «2008 NSF Data-Intensive Scalable Computing in Education Workshop«, cuyos instructores Christophe Bisciglia (antes de Google) y Aaron Kimball forman parte del equipo fundador de Cloudera.

CloneCloud: Cloud Computing para teléfonos celulares

mayo 5th, 2009

Investigadores de Intel Research Berkeley han diseñado CloneCloud, el cual permite que un teléfono celular utilice computadores en la «nube» para ejecutar aplicaciones que resultan muy pesadas para correr directamente en el celular. Hay más información disponible en el MIT Technology Review, y en la página de CloneCloud.

Materia de graduación

mayo 4th, 2009

Los detalles sobre la materia de graduación «Procesamiento Masivo y Escalable de Datos» ya están disponibles en la página de la materia y en la sección de recursos de la misma. Si tienen dudas adicionales, pueden colocarlas como comentarios a este mensaje, y yo los contestaré los más pronto posible.

Apache Cloud Computing Edition

abril 30th, 2009

Apache está trabajando en una versión para Cloud Computing. La idea surge del hecho de que actualmente existen varios proveedores de servicios de cloud computing, entre ellos Amazon (con los Amazon Web Services), HP e IBM. Lastimosamente, no existe una pila estándar de Apache para ambientes de cloud computing. Por esta razón surgen problemas de incompatibilidad, lentitud en el desarrollo, dificultades para la identificación y solución de bugs, dificultad (y hasta imposibilidad) de migrar el sistema a otra plataforma de cloud computing, etc. Hay una muy buena presentación sobre el tema disponible en el website de Apache. Recomiendo empezar en la página 31, ya que las páginas 31-60 contienen las diapositivas 1-30 pero con comentarios.

CloudSim Toolkit 1.0 Beta

abril 27th, 2009

Un grupo de investigación de la Universidad de Melbourne en Australia acaba de liberar la versión Beta de CloudSim. CloudSim es una plataforma de simulación que busca dar soporte a la investigación y desarrollo en el campo de Cloud Computing. El software puede ser descargado de: http://www.gridbus.org/cloudsim/.

Nuevos fondos para investigación sobre Cloud Computing

abril 24th, 2009

La NSF acaba de otorgar casi $5 millones en fondos para investigación a 14 universidades de EE.UU. para que desarrollen proyectos de cloud computing. Los proyectos utilizarán la infraestructura de la Cloud Computing University Initiative, creada en el 2007 gracias a una alianza de IBM y Google.

Los proyectos financiados utilizarán software y servicios que se ejecutarán en la «nube» de IBM/Google, para explorar ideas innovadoras en el campo del procesamiento masivo de datos.

Más información disponible en Supercomputing Online.

Ct: C for Throughput Computing

abril 22nd, 2009

Investigadores de Intel están desarrollando un lenguaje llamado Ct, el cual ayudará a que los programas puedan aprovechar al máximo el rendimiento de computadores con procesadores multicore.

De manera independiente, a Microsoft también le preocupa el problema de la programación en paralelo. Su propuesta, llamada Axum, busca ayudar a los programadores de .NET a desarrollar aplicaciones usando técnicas de programación en paralelo.

Difusión sobre Hadoop

abril 22nd, 2009

Allan Avendaño nos ayudó en la difusión del uso de Hadoop para ambientes de cloud computing, dictando una charla en el Flisol. El resumen, material de la charla y hoja de vida de Allan están disponibles en la página del evento.