Cloud Computing, MapReduce y Hadoop

Posts Tagged ‘aws’

The Eucalyptus Open-source Cloud-computing System

martes, junio 15th, 2010

Esta entrada es la primera de varias que publicaré durante los próximos meses, resumiendo papers importantes relacionados al tema de cloud computing.

Eucalyptus es un proyecto open-source que permite levantar clústeres bajo demanda, con nodos virtualizados (Xen). A más de ser un proyecto de código abierto, tiene la gran ventaja de implementar el API de los AWS (EC2 y S3), de tal manera que es compatible con las herramientas desarrolladas para esa plataforma.

El paper no entra en muchos detalles, pero sí menciona las principales decisiones de diseño y componentes del mismo.

Tags: aws, ec2, eucalyptus
Posted in Desarrollo, Investigación | No Comments »

ESPOLciencia: Jinesh Varia sobre «The State of the AWS Cloud»

viernes, enero 22nd, 2010

Como parte de ESPOLciencia, el 20 de enero tuvimos una vídeo-conferencia titulada «The State of the AWS Cloud» a cargo de Jinesh Varia, un Evangelist de los AWS. La conferencia tuvo una excelente acogida, entre estudiantes, profesionales e investigadores. Si bien algunos estudiantes de la FIEC ya estaban familiarizados con estos servicios al haberlos utilizado en mi materia de graduación, para otros el concer sobre estos fue algo nuevo.

Para los que les pareció interesante la charla, recomiendo leer el whitepaper «Architecting for the Cloud: Best Practices», el cual proporciona ejemplos y casos de mejores prácticas en el uso de los AWS.

Como hubo interés de investigadores y profesores de usar los AWS, pongo a disposición también el enlace de los fondos del programa AWS in Education.

Tags: aws, cloud computing
Posted in Desarrollo, Educación, ESPOL, Investigación, Negocios | No Comments »

Sistemas de recomendación con Hadoop

miércoles, julio 22nd, 2009

Uno de los grupos de la materia de graduación me comentó que estaba teniendo problemas implementando un sistema de recomendaciones usando Mahout (específicamente, Taste), debido a que tenían problemas de insuficiencia de memoria. Debe haber una manera de solucionar el problema, pero como alternativa pienso que podrían analizar utilizar el algoritmo descrito en el paper «Pairwise Document Similarity in Large Collections with MapReduce«. Encontré una entrada en un blog detallando el uso de este algoritmo, y un tutorial que muestra cómo implementarlo usando Elastic MapReduce.

Tags: aws, EMR, hadoop, mahout, MapReduce
Posted in Desarrollo, Educación, ESPOL | No Comments »

Más data sets de la Wikipedia

viernes, junio 12th, 2009

Una entrada en el blog de Data Wrangling describe tres data sets de la Wikipedia: el ya conocido raw dump, uno que contiene estadísticas de las frecuencias de visitas a las páginas de la Wikipedia durante 7 meses (el cual ya está subido a los AWS), y uno con la lista de los enlaces de las páginas a otras páginas.

Los invito a darme ideas de usos interesantes de estos data sets.

Tags: aws, wikipedia
Posted in Desarrollo, ESPOL, Investigación | 2 Comments »

Más sobre los AWS

viernes, mayo 22nd, 2009

El Elastic MapReduce de Amazon promete facilitar el proceso de levantar clusters Hadoop. Todavía no he tenido la oportunidad de probar este nuevo servicio, así que opté por registrarme al Webinar de la próxima semana.

Otro nuevo servicio interesante es el AWS Import/Export que permite enviar los data sets vía correo tradicional en lugar de usar la red. Esto resolvería el problema descrito en otra entrada anterior.

Tags: amazon, aws, ec2, hadoop, MapReduce
Posted in Desarrollo | No Comments »

Lo mejor del Cloud Slam ’09

martes, mayo 19th, 2009

Del 20 al 24 de abril se llevó a cabo el congreso Cloud Slam, en el cual hubieron conferencias a cargo de varios expertos en cloud computing. Estuve revisando la lista de las presentaciones (con vídeos), y pienso que las siguientes son de particular interés para los estudiantes de la materia de graduación:

Jinesh Varia. High Performance Compute Cloud. Jinesh es un «evangelista» de los AWS y en su charla presentó varios casos de estudio del uso de los AWS para HPC.
Wei-Yu Chen and Jazz Wang. Building a Cloud Computing Analysis System for Intrusion Detection System. Habla del uso de la «nube» en un IDS (sistema de detección de intrusiones).
Robert Grossman and Yunhong Gu: Sector: An Open Source Cloud for Data Intensive Computing. Describe la aplicación libre «Sector» para procesamiento masivo de datos en la nube usando MapReduce. Sector es una alternativa a Hadoop.
Bill Bryce and Ljubomir Buturovic: Case Study Using UniCloud and Amazon’s EC2 for Research in the clouds. Este caso de estudio describe como EC2 es usado para diagnosticar tumores difíciles de identificar.

Tags: aws, cloud computing, ec2, hadoop, MapReduce
Posted in Educación, Investigación, Negocios | 1 Comment »

Amazon anuncia lo nuevo en EC2

martes, mayo 19th, 2009

Amazon acaba de anunciar algunas novedades de EC2. Entre ellas, encuentro muy interesante el Amazon CloudWatch, que nos permitirá monitorear los trabajos y el rendimiento de los procesos MapReduce que ejecutemos en EC2.

Tags: amazon, aws, ec2, hadoop, MapReduce
Posted in Desarrollo, Negocios | No Comments »

Usando los scripts de Cloudera para procesar la Wikipedia

martes, mayo 12th, 2009

Hay una entrada muy detallada en el blog de Cloudera que demuestra paso a paso como usar los scripts de Cloudera para procesar la Wikipedia, usando Hadoop corriendo en EC2 y una versión separada por tabs (TSV) de la Wikipedia que está disponible de manera gratuita en S3. La información está detallada a manera de tutorial, y nos será muy útil en la materia de graduación; sobre todo porque 3 grupos trabajarán procesando la Wikipedia (pistas: ¿qué se sabe de Ecuador en la Wikipedia?, ¿qué se sabe de Guayaquil en la Wikipedia?, WikiGrep… más detalles el primer día de clases).

Tags: aws, cloudera, ec2, hadoop, S3, wikipedia
Posted in Desarrollo, Educación, ESPOL | 3 Comments »

Lo nuevo en el Hadoop Core 0.20

viernes, mayo 8th, 2009

El Hadoop core 0.20 tiene algunas mejoras sobre las versiones anteriores. Por ejemplo, se ha empezado a incluir características de seguridad. Entre los cambios más drásticos tenemos un nuevo API MapReduce, incompatible con el anterior.

Todavía no sé con cuál API trabajaremos en la materia de graduación, debido a que no sé cuán rápido actualicen la máquina virtual de Cloudera y los images de EC2 (AWS).

Hay más información sobre los cambios en el blog de Cloudera.

Tags: aws, Desarrollo, ec2, hadoop
Posted in Desarrollo, ESPOL | 2 Comments »

Apache Cloud Computing Edition

jueves, abril 30th, 2009

Apache está trabajando en una versión para Cloud Computing. La idea surge del hecho de que actualmente existen varios proveedores de servicios de cloud computing, entre ellos Amazon (con los Amazon Web Services), HP e IBM. Lastimosamente, no existe una pila estándar de Apache para ambientes de cloud computing. Por esta razón surgen problemas de incompatibilidad, lentitud en el desarrollo, dificultades para la identificación y solución de bugs, dificultad (y hasta imposibilidad) de migrar el sistema a otra plataforma de cloud computing, etc. Hay una muy buena presentación sobre el tema disponible en el website de Apache. Recomiendo empezar en la página 31, ya que las páginas 31-60 contienen las diapositivas 1-30 pero con comentarios.

Tags: apache, aws, cloud computing, hadoop, ibm, yahoo
Posted in Desarrollo, Negocios | No Comments »