Cloud Computing, MapReduce y Hadoop

Versión de Hadoop que usaremos

mayo 20th, 2009

En la materia usaremos la versión 0.18 de Hadoop ya que para esa versión es para la que hay más soporte actualmente. El primer paso para poder usar Hadoop es que todos tengan una versión funcional en sus laptops o computadoras personales. En lugar de recurrir a una opción de dual boot e instalación del software, usaremos máquinas virtuales o live CDs.

Yo recomiendo el uso de la máquina virtual distribuida por Cloudera (necesitarán también el VMware Player), pero si lo prefieren pueden usar la máquina virtual del tutorial de Yahoo! o el OpenSolaris Hadoop Live CD. La última alternativa es interesante porque levanta un cluster (virtual) de tres nodos, pero la desventaja es que usa la versión 0.17.1 de Hadoop.

Tags: cloudera, hadoop, yahoo
Posted in Desarrollo, ESPOL | No Comments »

Lo mejor del Cloud Slam ’09

mayo 19th, 2009

Del 20 al 24 de abril se llevó a cabo el congreso Cloud Slam, en el cual hubieron conferencias a cargo de varios expertos en cloud computing. Estuve revisando la lista de las presentaciones (con vídeos), y pienso que las siguientes son de particular interés para los estudiantes de la materia de graduación:

Jinesh Varia. High Performance Compute Cloud. Jinesh es un «evangelista» de los AWS y en su charla presentó varios casos de estudio del uso de los AWS para HPC.
Wei-Yu Chen and Jazz Wang. Building a Cloud Computing Analysis System for Intrusion Detection System. Habla del uso de la «nube» en un IDS (sistema de detección de intrusiones).
Robert Grossman and Yunhong Gu: Sector: An Open Source Cloud for Data Intensive Computing. Describe la aplicación libre «Sector» para procesamiento masivo de datos en la nube usando MapReduce. Sector es una alternativa a Hadoop.
Bill Bryce and Ljubomir Buturovic: Case Study Using UniCloud and Amazon’s EC2 for Research in the clouds. Este caso de estudio describe como EC2 es usado para diagnosticar tumores difíciles de identificar.

Tags: aws, cloud computing, ec2, hadoop, MapReduce
Posted in Educación, Investigación, Negocios | 1 Comment »

Amazon anuncia lo nuevo en EC2

mayo 19th, 2009

Amazon acaba de anunciar algunas novedades de EC2. Entre ellas, encuentro muy interesante el Amazon CloudWatch, que nos permitirá monitorear los trabajos y el rendimiento de los procesos MapReduce que ejecutemos en EC2.

Tags: amazon, aws, ec2, hadoop, MapReduce
Posted in Desarrollo, Negocios | No Comments »

Cloud computing para analizar el genoma humano

mayo 19th, 2009

En una entrada anterior, indiqué que las comunidades científicas están empezando a usar cloud computing para resolver problemas que requieren mucha capacidad de procesamiento, en lugar de los tradicionales grids (como por ejemplo, el TeraGrid). Ahora, en otra noticia publicada por la ACM, se indica que gente de la universidad de Maryland está usando cloud computing para procesar el genoma humando, sin tener que recurrir a costosos clusters de computadoras. Al momento han tenido resultados exitosos, pero han notado que—al menos para ellos—la dificultad radica en subir los datos a la «nube».

Tags: cloud computing, grid-computing
Posted in Investigación | No Comments »

Grid computing vs. cloud computing para computaciones científicas

mayo 19th, 2009

Un equipo de investigación del Argonne National Lab de EE.UU. está trabajando en una plataforma para procesamiento científico usando cloud computing (en lugar del grid computing usado tradicionalmente por esas comunidades). Más detalles en la página de la NSF.

Tags: cloud computing, grid-computing, nimbus
Posted in Investigación | No Comments »

Información útil en el blog de Cloudera

mayo 19th, 2009

La gente de Cloudera frecuentemente publica información que nos será de gran utilidad en la materia. Por ejemplo, hay una entrada que ayuda a despejar muchas dudas comunes sobre Hadoop y otra que proporciona 10 tips para desarrolladores que deseen usar MapReduce (Hadoop).

Tags: cloudera, hadoop, MapReduce
Posted in Desarrollo | No Comments »

Proyectos de la materia de graduación

mayo 19th, 2009

La lista de los temas que se desarrollarán este semestre (en grupos de dos estudiantes) es:

1) Sistema para generar gráficas a partir de logs tcpdump, para el capítulo de Ecuador del proyecto Honeynet (www.honeynet.ec).

2) Implementación y evaluación utilizando Hadoop de un mecanismo para anonimizar tráfico de red en formato netflow.

a. Observación: se trabajará con uno o más de los métodos desarrollados por el grupo de investigación LAIM del National Center for Sumpercomputing Applications.

3) Implementación y evaluación utilizando Hadoop de un mecanismo para anonimizar tráfico de red en formato netflow.

a. Observación: se trabajará con otro algoritmo distinto al tema 3.

4) WikiGrep: búsquedas avanzadas en la Wikipedia.

5) Red Social de intercambio de bookmarks, en base a recomendaciones auto-generadas.

a. Observación: propuesto por el Sr. Allan Avendaño.

6) Minería de registros de llamadas y mensajes celulares para una telefónica del Ecuador.

a. Observación: propuesto por el Sr. Romeo Cabrera.

7) Búsquedas avanzadas tipo grep para las tesis y otros documentos de investigación publicadas las páginas Web de la ESPOL.

8) Minería de información sobre Ecuador en la Wikipedia.

9) Sistema de recomendación de películas usando la base de datos de Netflix.

10) Modelamiento estadístico de la Web de la ESPOL.

11) Minería de logs de un juego multi-jugador en línea.

a. Observación: propuesto por el Sr. Carlos Granda.

Posted in Educación, ESPOL, Investigación | No Comments »

Pasos a seguir <– CORREGIDO

mayo 14th, 2009

Los alumnos de la materia de graduación deben hacer lo siguiente:

Subscribirse a este blog (RSS) y asegurarse de leerlo detenidamente al menos una vez a la semana (es decir, leyendo también los enlaces proporcionados en las entradas que publico).
Acercarse desde el viernes 15 de mayo al miércoles 20 de mayo a pagar el registro en el Centro de Transferencia de Tecnologías de la ESPOL (CTT). Cancelar $250 en la cuenta corriente del Banco del Pacífico No. 0717663-5 del Centro de Transferencia de Tecnologías (CTT-ESPOL).
Traerme el comprobante de pago original (sacar fotocopia primero) hasta el miércoles 20 de mayo; entregarme también el siguiente compromiso firmado: «Yo _______, estudiante de la FIEC con matrícula ________, me comprometo a asistir a al menos el 60% de las horas de clases de la materia de graduación Procesamiento Masivo y Escalable de Datos que se dictará todos los viernes de 7h30 a 11h30 durante el I Término 2009.» Quien hasta la fecha indicada no entregue su comprobante, perderá su cupo en la materia.
Asistir a la primera clase el día viernes 22 de mayo, a las 7h30 en el aula COM4 de la FIEC.
Estar atento a la publicación de los temas de los proyectos que publicaré en los próximos días, para que puedan ir pensando en cuál les gustaría trabajar (en grupos de dos estudiantes).

Posted in Educación, ESPOL | 4 Comments »

Alumnos de «Procesamiento masivo y escalable de datos», 2009-1T

mayo 13th, 2009

Ya están listos los resultados del proceso de selección. Se seleccionó a los siguientes estudiantes de acuerdo al criterio de selección adjunto:

Allan Avendaño	200306611
Denisse Cayetano	200407708
Christian Rivadeneira	200209799
Irene Varas	200306413
Freddy de la Rosa	200006013
Mario García	200306868
Gabriel Paladines	200402279
Carlos Granda	200423507
Ligia Calva	200223741
Ana Victoria Kam	199908245
Grace Aragundi	200123354
Washington Bastidas	200410710
Jesús González	200211472
Bolivar Elbert	200208783
Adriana Bedoya	200211019
Andrés Cantos	200407682
Romeo Cabrera	199711326
Luis Mora	200406791
Mervyn Macías	200017838
Luis Zúñiga	200319556
Pedro Torres	200307270
Angel Cruz	200416469

NOTA: Debido a que el Sr. Zuñiga cedió su cupo, he añadido al Sr. FABRICIO MEDINA (200123560) a la lista.

A continuación se encuentran algunas estadísticas sobre los estudiantes seleccionados:

Distribución del promedio de los estudiantes seleccionados
Promedio general	Número de estudiantes
< 7.6	0
[7.6 -7.7)	5
[7.7 -7.8 )	5
[7.8 – 7.9)	5
[7.9 – 8)	4
[8 – 8.1)	1
>= 8.1	2

Número de materias que faltan por aprobar a los estudiantes seleccionados (exceptuando inglés)
Número de materias	Número de estudiantes
0	15
1	3
2	4
3	0
> 3	0


Año de egreso	Número de estudiantes
< 2003	0
2003	2
2004	0
2005	0
2006	0
2007	5
> 2007	8

Año de ingreso	Número de estudiantes
1997	1
1998	0
1999	1
2000	2
2001	1
2002	5
2003	5
2004	7

¡Felicitaciones a los estudiantes seleccionados! Quisiera indicar que 4 estudiantes con excelente promedio (mayor a 7.85) no fueron seleccionados porque les falta por aprobar 4 ó más materias. A aquellos estudiantes, les comento que me encantaría trabajar con ellos el próximo semestre (la materia se volverá a dictar el II Término 2009-2010); si desean adelantar su trabajo en el proyecto, pueden conversar conmigo para coordinar su asistencia como oyentes este semestre.

Finalmente, si alguno de los seleccionados no podrá asistir en el horario planteado (todos los viernes de 7h30 a 11h30), por favor indíquenlo cuanto antes para ceder su cupo a otro estudiante ya que si un estudiante falta el 40% o más de las horas dictadas, perderá automáticamente la materia.

Posted in Educación, ESPOL | 10 Comments »

Usando los scripts de Cloudera para procesar la Wikipedia

mayo 12th, 2009

Hay una entrada muy detallada en el blog de Cloudera que demuestra paso a paso como usar los scripts de Cloudera para procesar la Wikipedia, usando Hadoop corriendo en EC2 y una versión separada por tabs (TSV) de la Wikipedia que está disponible de manera gratuita en S3. La información está detallada a manera de tutorial, y nos será muy útil en la materia de graduación; sobre todo porque 3 grupos trabajarán procesando la Wikipedia (pistas: ¿qué se sabe de Ecuador en la Wikipedia?, ¿qué se sabe de Guayaquil en la Wikipedia?, WikiGrep… más detalles el primer día de clases).

Tags: aws, cloudera, ec2, hadoop, S3, wikipedia
Posted in Desarrollo, Educación, ESPOL | 3 Comments »