Cloud Computing, MapReduce y Hadoop

Archive for the ‘Educación’ Category

Time-sharing industry y cloud computing

viernes, agosto 13th, 2010

Recientemente leí cuatro artículos interesantes que ponen en perspectiva los modelos actuales usados en cloud computing de software como un servicio (SaaS) e infraestructura como un servicio (IaaS o Utility Computing). Pienso que la historia de sus parientes lejanos (industria de tiempo compartido de los 70s) es imprescindible para tener una mejor visión del mercado actual de cloud computing.

Los artículos recomendados son (en orden cronológico de publicación):

Martin Campbell-Kelly and Daniel D. Garcia-Swartz. Economic perspectives on the history of the computer time-sharing industry, 1965-1985. IEEE Annals of the History of Computing, 30(1):16–36, January 2008.
Martin C. Kelly. [historical reflections] the rise, fall, and resurrection of software as a service. Commun. ACM, 52(5):28–30, May 2009.
Erik Brynjolfsson, Paul Hofmann, and John Jordan. Cloud computing and electricity: beyond the utility model. Commun. ACM, 53(5):32–34, 2010.
Dave Durkee. Why cloud computing will never be free. Commun. ACM, 53(5):62–69, 2010.

Tags: cloud computing, iaas, saas, time-sharing, utility-computing
Posted in Educación, Negocios | No Comments »

ESPOLciencia: Jinesh Varia sobre «The State of the AWS Cloud»

viernes, enero 22nd, 2010

Como parte de ESPOLciencia, el 20 de enero tuvimos una vídeo-conferencia titulada «The State of the AWS Cloud» a cargo de Jinesh Varia, un Evangelist de los AWS. La conferencia tuvo una excelente acogida, entre estudiantes, profesionales e investigadores. Si bien algunos estudiantes de la FIEC ya estaban familiarizados con estos servicios al haberlos utilizado en mi materia de graduación, para otros el concer sobre estos fue algo nuevo.

Para los que les pareció interesante la charla, recomiendo leer el whitepaper «Architecting for the Cloud: Best Practices», el cual proporciona ejemplos y casos de mejores prácticas en el uso de los AWS.

Como hubo interés de investigadores y profesores de usar los AWS, pongo a disposición también el enlace de los fondos del programa AWS in Education.

Tags: aws, cloud computing
Posted in Desarrollo, Educación, ESPOL, Investigación, Negocios | No Comments »

Sistemas de recomendación con Hadoop

miércoles, julio 22nd, 2009

Uno de los grupos de la materia de graduación me comentó que estaba teniendo problemas implementando un sistema de recomendaciones usando Mahout (específicamente, Taste), debido a que tenían problemas de insuficiencia de memoria. Debe haber una manera de solucionar el problema, pero como alternativa pienso que podrían analizar utilizar el algoritmo descrito en el paper «Pairwise Document Similarity in Large Collections with MapReduce«. Encontré una entrada en un blog detallando el uso de este algoritmo, y un tutorial que muestra cómo implementarlo usando Elastic MapReduce.

Tags: aws, EMR, hadoop, mahout, MapReduce
Posted in Desarrollo, Educación, ESPOL | No Comments »

Tip de rendimiento: reutilizar la JVM entre tareas Map

martes, junio 16th, 2009

En un e-mail de la lista core-user de hadoop, alguien preguntó lo siguiente:

Subject: Can I share datas for several map tasks?
Hi,
I want to share some data structures for the map tasks on a same node(not through files), I mean, if one map task has already initialized some data structures (e.g. an array or a list), can other map tasks share these memorys and directly access them, for I don’t want to reinitialize these datas and I want to save some memory. Can hadoop help me do this?

Eason.Lee sugirió:

I think you can just define the data structures in your map classinit it in
setup(Context context) and use it in your map method
hope it is helpful!

Pero si lo que se quiere es que los mappers que se levanten en el mismo nodo re-utilicen la estructura de datos creada por el primer Map task levantado en ese nodo, entonces la solución—planteada por Sharad Agarwal de Yahoo!—es re-utilizar la JVM:

You can enable jvm reuse across tasks. See mapred.job.reuse.jvm.num.tasks in mapred-default.xml for usage. Then you can cache the data in a static variable in your mapper.

Tags: hadoop, jvm, MapReduce
Posted in Desarrollo, Educación | No Comments »

Descuento en Libro Pro Hadoop

miércoles, junio 10th, 2009

Jason Venner envió el siguiente e-mail a la lista core-user de Hadoop:

From: jason hadoop <jason.hadoop@gmail.com>
To: core-user@hadoop.apache.org
Date: Tue, 9 Jun 2009 19:15:24 -0700
Subject: [ADV] Blatant marketing of the book Pro Hadoop. In honor of the 09 summit here is a 50% off coupon,

In honor of the Hadoop Summit on June 10th(tomorrow), Apress has agreed to provide some conference swag, in the form of a 50% off coupon. Purchase the book at http://eBookshop.apress.com and use code LUCKYOU, for 50% off the list price. The coupon has a short valid time so don’t delay your purchase 🙂

—
http://www.apress.com/book/view/9781430219422
www.prohadoopbook.com a community for Hadoop Professionals

El descuento, que al parecer solamente se aplica al eBook, permite adquirir el libro por $14.00. Yo pre-ordené la versión impresa en Amazon $36.37 (incluyendo el S&H). Acabo de revisar el estado de la orden, y me dice Amazon que me lo enviará el 22 de junio. Anteriormente, compré el libro de Hadoop de O’Reilly en versión digital e impresa. Todavía no me llega la impresa, pero a la digital ya tengo acceso desde hace algunos meses. Lo he leído por partes, y está bastante bueno, pero no sé cómo se compara con el Pro Hadoop. Acabo de enterarme también de que hay un tercer libro de Hadoop en proceso: Hadoop in Action. Lastimosamente no he podido encontrar comentarios comparándolos, así que no sabría cuál recomendarles.

Tags: hadoop
Posted in Desarrollo, Educación, Negocios | 1 Comment »

Datasets disponibles en la Web

lunes, mayo 25th, 2009

En clase surgió la pregunta de qué datasets hay disponibles de manera gratuita para procesar. Hay una lista muy extensa disponible en datawrangling.com, la cual puede servir de punto de partida para ideas de proyectos de procesamiento masivo de datos. La lista es realmente grande, pero vale la pena analizarla ya que hay datasets interesantes, como por ejemplo el de Audioscrobbler, que puede ser usado para sistemas de recomendaciones de música.

En otra entrada en el mismo blog, Peter Skomoroch escribe:

So what can you do with Elastic MapReduce? Here are a few initial ideas:

Offload background processing from your Rails or Django app to Hadoop by sending the ElasticMapReduce API job requests pointing to data stored on S3: convert PDFs, classify spam, deduplicate records, batch geocoding, etc.

Process large amounts of retail sales and inventory transaction data for sales forecasting and optimization

Use the AddJobFlowSteps method in the API to run iterative machine learning algorithms using MapReduce on a remote Hadoop cluster and shut it down when your results converge to an answer

I’ll post more on this later today – including a detailed explanation of using Netflix Prize data in the code example and some next steps for using Elastic MapReduce.

Me parece que lo publicado en ese blog es de interés para la materia, así que lo he añadido al costado de esta página para poder seguirlo con facilidad.

Tags: datasets
Posted in Desarrollo, Educación, ESPOL | 9 Comments »

¡En sus marcas, listos, fuera!

viernes, mayo 22nd, 2009

Hoy tuvimos la primera clase de la materia de graduación, y empezamos viendo una introducción a la programación en paralelo y la programación distribuida.

Para que sea más fácil llevarle la pista a las actividades pendientes y entregables, he creado una página llamada «Actividades». También revisen frecuentemente la página de los proyectos, en donde trataré de publicar información de interés para los diferentes grupos.

Posted in Educación, ESPOL | 6 Comments »

Lo mejor del Cloud Slam ’09

martes, mayo 19th, 2009

Del 20 al 24 de abril se llevó a cabo el congreso Cloud Slam, en el cual hubieron conferencias a cargo de varios expertos en cloud computing. Estuve revisando la lista de las presentaciones (con vídeos), y pienso que las siguientes son de particular interés para los estudiantes de la materia de graduación:

Jinesh Varia. High Performance Compute Cloud. Jinesh es un «evangelista» de los AWS y en su charla presentó varios casos de estudio del uso de los AWS para HPC.
Wei-Yu Chen and Jazz Wang. Building a Cloud Computing Analysis System for Intrusion Detection System. Habla del uso de la «nube» en un IDS (sistema de detección de intrusiones).
Robert Grossman and Yunhong Gu: Sector: An Open Source Cloud for Data Intensive Computing. Describe la aplicación libre «Sector» para procesamiento masivo de datos en la nube usando MapReduce. Sector es una alternativa a Hadoop.
Bill Bryce and Ljubomir Buturovic: Case Study Using UniCloud and Amazon’s EC2 for Research in the clouds. Este caso de estudio describe como EC2 es usado para diagnosticar tumores difíciles de identificar.

Tags: aws, cloud computing, ec2, hadoop, MapReduce
Posted in Educación, Investigación, Negocios | 1 Comment »

Proyectos de la materia de graduación

martes, mayo 19th, 2009

La lista de los temas que se desarrollarán este semestre (en grupos de dos estudiantes) es:

1) Sistema para generar gráficas a partir de logs tcpdump, para el capítulo de Ecuador del proyecto Honeynet (www.honeynet.ec).

2) Implementación y evaluación utilizando Hadoop de un mecanismo para anonimizar tráfico de red en formato netflow.

a. Observación: se trabajará con uno o más de los métodos desarrollados por el grupo de investigación LAIM del National Center for Sumpercomputing Applications.

3) Implementación y evaluación utilizando Hadoop de un mecanismo para anonimizar tráfico de red en formato netflow.

a. Observación: se trabajará con otro algoritmo distinto al tema 3.

4) WikiGrep: búsquedas avanzadas en la Wikipedia.

5) Red Social de intercambio de bookmarks, en base a recomendaciones auto-generadas.

a. Observación: propuesto por el Sr. Allan Avendaño.

6) Minería de registros de llamadas y mensajes celulares para una telefónica del Ecuador.

a. Observación: propuesto por el Sr. Romeo Cabrera.

7) Búsquedas avanzadas tipo grep para las tesis y otros documentos de investigación publicadas las páginas Web de la ESPOL.

8) Minería de información sobre Ecuador en la Wikipedia.

9) Sistema de recomendación de películas usando la base de datos de Netflix.

10) Modelamiento estadístico de la Web de la ESPOL.

11) Minería de logs de un juego multi-jugador en línea.

a. Observación: propuesto por el Sr. Carlos Granda.

Posted in Educación, ESPOL, Investigación | No Comments »

Pasos a seguir <– CORREGIDO

jueves, mayo 14th, 2009

Los alumnos de la materia de graduación deben hacer lo siguiente:

Subscribirse a este blog (RSS) y asegurarse de leerlo detenidamente al menos una vez a la semana (es decir, leyendo también los enlaces proporcionados en las entradas que publico).
Acercarse desde el viernes 15 de mayo al miércoles 20 de mayo a pagar el registro en el Centro de Transferencia de Tecnologías de la ESPOL (CTT). Cancelar $250 en la cuenta corriente del Banco del Pacífico No. 0717663-5 del Centro de Transferencia de Tecnologías (CTT-ESPOL).
Traerme el comprobante de pago original (sacar fotocopia primero) hasta el miércoles 20 de mayo; entregarme también el siguiente compromiso firmado: «Yo _______, estudiante de la FIEC con matrícula ________, me comprometo a asistir a al menos el 60% de las horas de clases de la materia de graduación Procesamiento Masivo y Escalable de Datos que se dictará todos los viernes de 7h30 a 11h30 durante el I Término 2009.» Quien hasta la fecha indicada no entregue su comprobante, perderá su cupo en la materia.
Asistir a la primera clase el día viernes 22 de mayo, a las 7h30 en el aula COM4 de la FIEC.
Estar atento a la publicación de los temas de los proyectos que publicaré en los próximos días, para que puedan ir pensando en cuál les gustaría trabajar (en grupos de dos estudiantes).

Posted in Educación, ESPOL | 4 Comments »