Cloud Computing, MapReduce y Hadoop

Archive for the ‘Investigación’ Category

The Eucalyptus Open-source Cloud-computing System

martes, junio 15th, 2010

Esta entrada es la primera de varias que publicaré durante los próximos meses, resumiendo papers importantes relacionados al tema de cloud computing.

Eucalyptus es un proyecto open-source que permite levantar clústeres bajo demanda, con nodos virtualizados (Xen). A más de ser un proyecto de código abierto, tiene la gran ventaja de implementar el API de los AWS (EC2 y S3), de tal manera que es compatible con las herramientas desarrolladas para esa plataforma.

El paper no entra en muchos detalles, pero sí menciona las principales decisiones de diseño y componentes del mismo.

Tags: aws, ec2, eucalyptus
Posted in Desarrollo, Investigación | No Comments »

ESPOLciencia: Jinesh Varia sobre «The State of the AWS Cloud»

viernes, enero 22nd, 2010

Como parte de ESPOLciencia, el 20 de enero tuvimos una vídeo-conferencia titulada «The State of the AWS Cloud» a cargo de Jinesh Varia, un Evangelist de los AWS. La conferencia tuvo una excelente acogida, entre estudiantes, profesionales e investigadores. Si bien algunos estudiantes de la FIEC ya estaban familiarizados con estos servicios al haberlos utilizado en mi materia de graduación, para otros el concer sobre estos fue algo nuevo.

Para los que les pareció interesante la charla, recomiendo leer el whitepaper «Architecting for the Cloud: Best Practices», el cual proporciona ejemplos y casos de mejores prácticas en el uso de los AWS.

Como hubo interés de investigadores y profesores de usar los AWS, pongo a disposición también el enlace de los fondos del programa AWS in Education.

Tags: aws, cloud computing
Posted in Desarrollo, Educación, ESPOL, Investigación, Negocios | No Comments »

BOOM y Datalog: Nuevas alternativas para programación en las nubes

lunes, diciembre 21st, 2009

Según el MIT Review, un grupo de investigadores de la Universidad de California, Berkeley está trababajdo en un proyecto llamado BOOM que facilitará la creación de programas que corran en las nubes. La meta del proyecto BOOM (Berkeley Orders Of Magnitude) es facilitar la construcción de sistemas distribuidos que sean mucho más escalables, usando mucho menos código. La idea es que el desarrollador se pueda preocupar del flujo de datos del sistema, y no de las complejidades del sistema distribuido como tal.

Las «nuevas» técnicas de BOOM están basadas en técnicas de bases de datos originalmente desarrolladas en los 80s; específicamente, en un lenguaje llamado Datalog. Para ser precisos, el ambiente de desarrollo de alto nivel de BOOM se llama Bloom, y está basado en el lenguaje Dedalus. Los creadores de Dedalus lo han descrito como Datalog en tiempo y espacio; es una adaptación de Datalog que permite expresar sistemas distribuidos como un conjunto de invariantes lógicas. A su vez, Datalog es un lenguaje de consultas y reglas para bases de datos que se deriva de Prolog.

Tags: Berkeley, bloom, boom, cloud computing, datalog
Posted in Desarrollo, Investigación | No Comments »

The Fourth Paradigm: Data-Intensive Scientific Discovery (E-book)

viernes, diciembre 18th, 2009

El libro The Fourth Paradigm (disponible en-línea) parece ser muy interesante y busca motivar una nueva oleada de investigación basada en procesamiento masivo de datos. A través de varios ensayos, se argumenta que los nuevos avances tecnológicos se basarán en descubrimientos posibles gracias al desarrollo actual de técnicas computacionales avanzadas que permiten a los investigadores manipular y explorar datasets masivos.

Tags: data-intensive computing, microsoft
Posted in Investigación | No Comments »

Errores en memoria DRAM pueden afectar a data centers

lunes, octubre 12th, 2009

Un estudio reciente publicado por una profesora de la Universidad de Toronto y gente de Google ha encontrado que los errores en memoria DRAM (memoria principal) son mucho más comúnes de lo que se pensaba anteriormente. Esto tiene implicaciones importantes en los sistemas actuales, sobre todo para data centers implementados con componentes de bajo costo (los cuales vienen sin mecanismos de corrección de errores para la RAM).

A continuación, listo las conclusiones finales de la investigación:

We found the incidence of memory errors and the range of error rates across different DIMMs to be much higher than previously reported.

Memory errors are strongly correlated.

The incidence of CEs increases with age, while the incidence of UEs decreases with age (due to re-placements).

There is no evidence that newer genera-tion DIMMs have worse error behavior.

Within the range of temperatures our production systems experience in the field, temperature hasa surprisingly low effect on memory errors.

Error rates are strongly correlated withutilization.

Error rates are unlikely to be dominatedby soft errors.

Tags: datacenter, google
Posted in Investigación, Negocios | No Comments »

Nubes virtuales

miércoles, julio 22nd, 2009

En una entrada anterior mencionaba lo caro que puede ser mantener un data center. Una alternativa para los usuarios finales serían las nubes virtuales, creadas a través de la donación de ciclos no utilizados de computadores personales. La idea no es nueva, y de hecho tuvo mediano éxito con la plataforma BOINC, usada por proyectos como SETI@home.

La verdad no me queda claro cuál sería la diferencia entre una nube virtual y un servicio de Internet computing (como BOINC), excepto—tal vez—la interfaz proporcionada al usuario final.

Y hablando de BOINC y MapReduce, MapReduce es uno de los 13 enanos identificados por investigadores de Berkeley. Estos «enanos» representan diferentes métodos algorítmicos que capturan patrones computacionales y de comunicaciones. La idea es que estos patrones puedan ser usados para evaluar modelos y arquitecturas de programación paralela. En la página que describe el «enano» MapReduce hay un comentario que indica que BOINC puede ser visto como un «specification framework» para problemas MapReduce (que indica es básicamente una generalización del enano antes llamado Monte Carlo).

Tags: Berkeley, BOINC, cloud computing, dwarfs, MapReduce
Posted in Investigación, Negocios | No Comments »

Más data sets de la Wikipedia

viernes, junio 12th, 2009

Una entrada en el blog de Data Wrangling describe tres data sets de la Wikipedia: el ya conocido raw dump, uno que contiene estadísticas de las frecuencias de visitas a las páginas de la Wikipedia durante 7 meses (el cual ya está subido a los AWS), y uno con la lista de los enlaces de las páginas a otras páginas.

Los invito a darme ideas de usos interesantes de estos data sets.

Tags: aws, wikipedia
Posted in Desarrollo, ESPOL, Investigación | 2 Comments »

HotCloud ’09

viernes, junio 12th, 2009

El lunes 15 de junio se llevará a cabo el evento HotCloud ’09, en el cual se presentarán varios papers de investigaciones recientes sobre infraestructuras de cloud computing y temas relacionados. Los papers no se pueden bajar directamente del sitio (ya que pide un usuario y contraseña), pero se puede googlear el nombre del paper ya que generalmente los autores lo publican en sus páginas Web personales.

Tags: cloud computing
Posted in Investigación | No Comments »

¿Morirán las datawarehouses?

viernes, mayo 22nd, 2009

En un paper escrito por alguna gente de Greenplum, los autores argumentan que en la época de la Big Data (muchos muchos datos a ser procesados), los esquemas tradicionales de datawarehousing y business intelligence se vuelven obsoletos. Ellos proponen otra alternativa que han denominado análisis de datos MAD (Magnetic, Agile, Deep). En el paper, dan un ejemplo real de Fox Interactive Media, que antes de la propuesta planteada por Greenplum, recurría a un complejo proceso de datawarehousing+exportar resultados+procesamiento intermedio con scripts+procesamiento con MapReduce (Hadoop). La alternativa de ellos combina SQL y MapReduce en la base de datos de manera nativa, y a decir de los autores, les permitió «volverse locos» (go MAD) con el análisis de datos.

NOTA a los alumnos de la materia: creo que este paper es de interés para todos. Léanlo (no es necesario que lo entiendan al 100%) para poder discutirlo la próxima clase.

Tags: greenplum, hadoop, MapReduce
Posted in Desarrollo, ESPOL, Investigación, Negocios | No Comments »

Lo mejor del Cloud Slam ’09

martes, mayo 19th, 2009

Del 20 al 24 de abril se llevó a cabo el congreso Cloud Slam, en el cual hubieron conferencias a cargo de varios expertos en cloud computing. Estuve revisando la lista de las presentaciones (con vídeos), y pienso que las siguientes son de particular interés para los estudiantes de la materia de graduación:

Jinesh Varia. High Performance Compute Cloud. Jinesh es un «evangelista» de los AWS y en su charla presentó varios casos de estudio del uso de los AWS para HPC.
Wei-Yu Chen and Jazz Wang. Building a Cloud Computing Analysis System for Intrusion Detection System. Habla del uso de la «nube» en un IDS (sistema de detección de intrusiones).
Robert Grossman and Yunhong Gu: Sector: An Open Source Cloud for Data Intensive Computing. Describe la aplicación libre «Sector» para procesamiento masivo de datos en la nube usando MapReduce. Sector es una alternativa a Hadoop.
Bill Bryce and Ljubomir Buturovic: Case Study Using UniCloud and Amazon’s EC2 for Research in the clouds. Este caso de estudio describe como EC2 es usado para diagnosticar tumores difíciles de identificar.

Tags: aws, cloud computing, ec2, hadoop, MapReduce
Posted in Educación, Investigación, Negocios | 1 Comment »