Cloud Computing, MapReduce y Hadoop

Archive for the ‘Desarrollo’ Category

Información útil en el blog de Cloudera

martes, mayo 19th, 2009

La gente de Cloudera frecuentemente publica información que nos será de gran utilidad en la materia. Por ejemplo, hay una entrada que ayuda a despejar muchas dudas comunes sobre Hadoop y otra que proporciona 10 tips para desarrolladores que deseen usar MapReduce (Hadoop).

Tags: cloudera, hadoop, MapReduce
Posted in Desarrollo | No Comments »

Usando los scripts de Cloudera para procesar la Wikipedia

martes, mayo 12th, 2009

Hay una entrada muy detallada en el blog de Cloudera que demuestra paso a paso como usar los scripts de Cloudera para procesar la Wikipedia, usando Hadoop corriendo en EC2 y una versión separada por tabs (TSV) de la Wikipedia que está disponible de manera gratuita en S3. La información está detallada a manera de tutorial, y nos será muy útil en la materia de graduación; sobre todo porque 3 grupos trabajarán procesando la Wikipedia (pistas: ¿qué se sabe de Ecuador en la Wikipedia?, ¿qué se sabe de Guayaquil en la Wikipedia?, WikiGrep… más detalles el primer día de clases).

Tags: aws, cloudera, ec2, hadoop, S3, wikipedia
Posted in Desarrollo, Educación, ESPOL | 3 Comments »

Lo nuevo en el Hadoop Core 0.20

viernes, mayo 8th, 2009

El Hadoop core 0.20 tiene algunas mejoras sobre las versiones anteriores. Por ejemplo, se ha empezado a incluir características de seguridad. Entre los cambios más drásticos tenemos un nuevo API MapReduce, incompatible con el anterior.

Todavía no sé con cuál API trabajaremos en la materia de graduación, debido a que no sé cuán rápido actualicen la máquina virtual de Cloudera y los images de EC2 (AWS).

Hay más información sobre los cambios en el blog de Cloudera.

Tags: aws, Desarrollo, ec2, hadoop
Posted in Desarrollo, ESPOL | 2 Comments »

Hadoop Summit ’09

miércoles, mayo 6th, 2009

Yahoo! acaba de anunciar el Hadoop Summit 2009 que se llevará a cabo el 10 de junio en Santa Clara, CA. El evento se concentrará en los avances que se han hecho en el último año en cuanto al desarrollo e implementación de Hadoop y tecnologías relacionadas (como Pig, por ejemplo). También habrán presentaciones sobre aplicaciones que usan Hadoop de manera innovadora.

Entre los conferencistas, hay gente de Amazon, IBM, Facebook, Yahoo!, Sun y Microsoft. El Hadoop Summit 2008 fue todo un éxito, y parece que el de este año será igual.

Adicionalmente, en el día posterior al evento Cloudera y Yahoo! otorgorán entrenamiento básico y avanzado sobre Hadoop y herramientas relacionadas, sin costo. El entrenamiento básico supongo que será similar al que recibí en el «2008 NSF Data-Intensive Scalable Computing in Education Workshop«, cuyos instructores Christophe Bisciglia (antes de Google) y Aaron Kimball forman parte del equipo fundador de Cloudera.

Tags: amazon, cloudera, google, hadoop, ibm, yahoo
Posted in Desarrollo, Negocios | No Comments »

Apache Cloud Computing Edition

jueves, abril 30th, 2009

Apache está trabajando en una versión para Cloud Computing. La idea surge del hecho de que actualmente existen varios proveedores de servicios de cloud computing, entre ellos Amazon (con los Amazon Web Services), HP e IBM. Lastimosamente, no existe una pila estándar de Apache para ambientes de cloud computing. Por esta razón surgen problemas de incompatibilidad, lentitud en el desarrollo, dificultades para la identificación y solución de bugs, dificultad (y hasta imposibilidad) de migrar el sistema a otra plataforma de cloud computing, etc. Hay una muy buena presentación sobre el tema disponible en el website de Apache. Recomiendo empezar en la página 31, ya que las páginas 31-60 contienen las diapositivas 1-30 pero con comentarios.

Tags: apache, aws, cloud computing, hadoop, ibm, yahoo
Posted in Desarrollo, Negocios | No Comments »

CloudSim Toolkit 1.0 Beta

lunes, abril 27th, 2009

Un grupo de investigación de la Universidad de Melbourne en Australia acaba de liberar la versión Beta de CloudSim. CloudSim es una plataforma de simulación que busca dar soporte a la investigación y desarrollo en el campo de Cloud Computing. El software puede ser descargado de: http://www.gridbus.org/cloudsim/.

Tags: cloud computing, Desarrollo
Posted in Desarrollo, Investigación | No Comments »

Ct: C for Throughput Computing

miércoles, abril 22nd, 2009

Investigadores de Intel están desarrollando un lenguaje llamado Ct, el cual ayudará a que los programas puedan aprovechar al máximo el rendimiento de computadores con procesadores multicore.

De manera independiente, a Microsoft también le preocupa el problema de la programación en paralelo. Su propuesta, llamada Axum, busca ayudar a los programadores de .NET a desarrollar aplicaciones usando técnicas de programación en paralelo.

Tags: parallel programming
Posted in Desarrollo | No Comments »

SQL versus MapReduce?

miércoles, abril 22nd, 2009

En los últimos días se han publicado varios artículos sobre un paper titulado «A Comparison of Approaches to Large-Scale Data Analysis», el cual compara el rendimiento de análisis de datos usando MapReduce (Hadoop) y SQL (en dos bases de datos: Vertica y una comercial no identificada). Los resultados: SQL es más eficiente en las consultas mientras que Hadoop es más eficiente al momento de cargar/leer los datos. El problema del estudio realizado es que los investigadores (uno de ellos asociado con Microsoft) escogieron problemas para los cuales SQL es obviamente más apropiado. El paper trata de comparar ambas tecnologías como si fueran equivalentes y la una pudiera reemplazar a la otra. En realidad, ambas tecnologías fueron diseñadas para resolver problemas distintos y pueden llegar a ser complementarias. En el futuro, MapReduce y SQL co-existirán, como ya lo están sugiriendo la gente de Aster.

Tags: hadoop, MapReduce
Posted in Desarrollo | No Comments »