Archive for mayo, 2009

Proyectos de la materia de graduación

martes, mayo 19th, 2009

La lista de los temas que se desarrollarán este semestre (en grupos de dos estudiantes) es:

1)      Sistema para generar gráficas a partir de logs tcpdump, para el capítulo de Ecuador del proyecto Honeynet (www.honeynet.ec).

2)      Implementación y evaluación utilizando Hadoop de un mecanismo para anonimizar tráfico de red en formato netflow.

a. Observación: se trabajará con uno o más de los métodos desarrollados por el grupo de investigación LAIM del National Center for Sumpercomputing Applications.

3)      Implementación y evaluación utilizando Hadoop de un mecanismo para anonimizar tráfico de red en formato netflow.

a.       Observación: se trabajará con otro algoritmo distinto al tema 3.

4)      WikiGrep: búsquedas avanzadas en la Wikipedia.

5)      Red Social de intercambio de bookmarks, en base a recomendaciones auto-generadas.

a.       Observación: propuesto por el Sr. Allan Avendaño.

6)      Minería de registros de llamadas y mensajes celulares para una telefónica del Ecuador.

a.       Observación: propuesto por el Sr. Romeo Cabrera.

7)      Búsquedas avanzadas tipo grep para las tesis y otros documentos de investigación publicadas las páginas Web de la ESPOL.

8)      Minería de información sobre Ecuador en la Wikipedia.

9)      Sistema de recomendación de películas usando la base de datos de Netflix.

10)   Modelamiento estadístico de la Web de la ESPOL.

11)   Minería de logs de un juego multi-jugador en línea.

a.       Observación: propuesto por el Sr. Carlos Granda.

Pasos a seguir <– CORREGIDO

jueves, mayo 14th, 2009

Los alumnos de la materia de graduación deben hacer lo siguiente:

  1. Subscribirse a este blog (RSS) y asegurarse de leerlo detenidamente al menos una vez a la semana (es decir, leyendo también los enlaces proporcionados en las entradas que publico).
  2. Acercarse desde el viernes 15 de mayo al miércoles 20 de mayo a pagar el registro en el Centro de Transferencia de Tecnologías de la ESPOL (CTT).  Cancelar $250 en la cuenta corriente del Banco del Pacífico No. 0717663-5 del Centro de Transferencia de Tecnologías (CTT-ESPOL).
  3. Traerme el comprobante de pago original  (sacar fotocopia primero) hasta el miércoles 20 de mayo; entregarme también el siguiente compromiso firmado: «Yo _______, estudiante de la FIEC con matrícula ________, me comprometo a asistir a al menos el 60% de las horas de clases de la materia de graduación Procesamiento Masivo y Escalable de Datos que se dictará todos los viernes de 7h30 a 11h30 durante el I Término 2009.» Quien hasta la fecha indicada no entregue su comprobante, perderá su cupo en la materia.
  4. Asistir a la primera clase el día viernes 22 de mayo, a las 7h30 en el aula COM4 de la FIEC.
  5. Estar atento a la publicación de los temas de los proyectos que publicaré en los próximos días, para que puedan ir pensando en cuál les gustaría trabajar (en grupos de dos estudiantes).

Alumnos de «Procesamiento masivo y escalable de datos», 2009-1T

miércoles, mayo 13th, 2009

Ya están listos los resultados del proceso de selección. Se seleccionó a los siguientes estudiantes de acuerdo al criterio de selección adjunto:

Allan Avendaño 200306611
Denisse Cayetano 200407708
Christian Rivadeneira 200209799
Irene Varas 200306413
Freddy de la Rosa 200006013
Mario García 200306868
Gabriel Paladines 200402279
Carlos Granda 200423507
Ligia Calva 200223741
Ana Victoria Kam 199908245
Grace Aragundi 200123354
Washington Bastidas 200410710
Jesús González 200211472
Bolivar Elbert 200208783
Adriana Bedoya 200211019
Andrés Cantos 200407682
Romeo Cabrera 199711326
Luis Mora 200406791
Mervyn Macías 200017838
Luis Zúñiga 200319556
Pedro Torres 200307270
Angel Cruz 200416469

NOTA: Debido a que el Sr. Zuñiga cedió su cupo, he añadido al Sr. FABRICIO MEDINA (200123560) a la lista.

A continuación se encuentran algunas estadísticas sobre los estudiantes seleccionados: 

Distribución del promedio de los estudiantes seleccionados
Promedio general Número de estudiantes
< 7.6 0
[7.6 -7.7) 5
[7.7 -7.8 ) 5
[7.8 – 7.9) 5
[7.9 – 8) 4
[8 – 8.1) 1
>= 8.1 2
Número de materias que faltan por aprobar a los estudiantes seleccionados (exceptuando inglés)
Número de materias Número de estudiantes
0 15
1 3
2 4
3 0
> 3 0
Año de egreso Número de estudiantes
< 2003 0
2003 2
2004 0
2005 0
2006 0
2007 5
> 2007 8
Año de ingreso Número de estudiantes
1997 1
1998 0
1999 1
2000 2
2001 1
2002 5
2003 5
2004 7

¡Felicitaciones a los estudiantes seleccionados! Quisiera indicar que 4 estudiantes con excelente promedio (mayor a 7.85) no fueron seleccionados porque les falta por aprobar 4 ó más materias. A aquellos estudiantes, les comento que me encantaría trabajar con ellos el próximo semestre (la materia se volverá a dictar el II Término 2009-2010); si desean adelantar su trabajo en el proyecto, pueden conversar conmigo para coordinar su asistencia como oyentes este semestre.

Finalmente, si alguno de los seleccionados no podrá asistir en el horario planteado (todos los viernes de 7h30 a 11h30), por favor indíquenlo cuanto antes para ceder su cupo a otro estudiante ya que si un estudiante falta el 40% o más de las horas dictadas, perderá automáticamente la materia.

Usando los scripts de Cloudera para procesar la Wikipedia

martes, mayo 12th, 2009

Hay una entrada muy detallada en el blog de Cloudera que demuestra paso a paso como usar los scripts de Cloudera para procesar la Wikipedia, usando Hadoop corriendo en EC2 y una versión separada por tabs (TSV) de la Wikipedia que está disponible de manera gratuita en S3. La información está detallada a manera de tutorial, y nos será muy útil en la materia de graduación; sobre todo porque 3 grupos trabajarán procesando la Wikipedia (pistas: ¿qué se sabe de Ecuador en la Wikipedia?, ¿qué se sabe de Guayaquil en la Wikipedia?, WikiGrep… más detalles el primer día de clases).

Microsoft usa Hadoop

lunes, mayo 11th, 2009

En un comentario en este blog, Romeo Cabrera enlazó una noticia sobre el nuevo proyecto de búsqueda Web de Microsoft: Kumo. Con su nueva máquina de búsquedas Microsoft busca reposicionarse en el mercado de las búsquedas Web, liderado por Google y Yahoo!. Después de ocupar un distante tercer puesto por mucho tiempo, por fin se han dado cuenta que el enfoque MapReduce/GFS/BigTable de Google (el cual inspiró la combinación open source Hadoop/HDFS/HBase financiada principalmente por Yahoo!) es actualmente la mejor manera de atacar el problema del procesamiento masivo de datos (crucial para búsquedas Web).

En el 2007 Yahoo! logró mejorar considerablemente sus búsquedas y consecuentemente recuperar parte del mercado. Un elemento clave en el rediseño de las búsquedas de Yahoo! fue la adopción de Hadoop y otras tecnologías open source inspiradas en los desarrollos (propietarios) de Google. El resultado fue bueno para Yahoo! pero malo para Microsoft, que continuó perdiendo terreno. Como solución al problema, Microsoft intentó comprar Yahoo! en el 2008, pero la compra no se concretó. En vista de esto, vemos ahora a Microsoft invirtiendo en Kumo y cediendo por fin ante las ventajas del open source.

Lo nuevo en el Hadoop Core 0.20

viernes, mayo 8th, 2009

El Hadoop core 0.20 tiene algunas mejoras sobre las versiones anteriores. Por ejemplo, se ha empezado a incluir características de seguridad. Entre los cambios más drásticos tenemos un nuevo API MapReduce, incompatible con el anterior.

Todavía no sé con cuál API trabajaremos en la materia de graduación, debido a que no sé cuán rápido actualicen la máquina virtual de Cloudera y los images de EC2 (AWS).

Hay más información sobre los cambios en el blog de Cloudera.

Hadoop Summit ’09

miércoles, mayo 6th, 2009

Yahoo! acaba de anunciar el Hadoop Summit 2009 que se llevará a cabo el 10 de junio en Santa Clara, CA. El evento se concentrará en los avances que se han hecho en el último año en cuanto al desarrollo e implementación de Hadoop y tecnologías relacionadas (como Pig, por ejemplo). También habrán presentaciones sobre aplicaciones que usan Hadoop de manera innovadora.

Entre los conferencistas, hay gente de Amazon, IBM, Facebook, Yahoo!, Sun y Microsoft. El Hadoop Summit 2008 fue todo un éxito, y parece que el de este año será igual.

Adicionalmente, en el día posterior al evento Cloudera y Yahoo! otorgorán entrenamiento básico y avanzado sobre Hadoop y herramientas relacionadas, sin costo. El entrenamiento básico supongo que será similar al que recibí en el «2008 NSF Data-Intensive Scalable Computing in Education Workshop«, cuyos instructores Christophe Bisciglia (antes de Google) y Aaron Kimball forman parte del equipo fundador de Cloudera.

CloneCloud: Cloud Computing para teléfonos celulares

martes, mayo 5th, 2009

Investigadores de Intel Research Berkeley han diseñado CloneCloud, el cual permite que un teléfono celular utilice computadores en la «nube» para ejecutar aplicaciones que resultan muy pesadas para correr directamente en el celular. Hay más información disponible en el MIT Technology Review, y en la página de CloneCloud.

Materia de graduación

lunes, mayo 4th, 2009

Los detalles sobre la materia de graduación «Procesamiento Masivo y Escalable de Datos» ya están disponibles en la página de la materia y en la sección de recursos de la misma. Si tienen dudas adicionales, pueden colocarlas como comentarios a este mensaje, y yo los contestaré los más pronto posible.