Descuento en Libro Pro Hadoop

junio 10th, 2009

Jason Venner envió el siguiente e-mail a la lista core-user de Hadoop:

From: jason hadoop <jason.hadoop@gmail.com>
To: core-user@hadoop.apache.org
Date: Tue, 9 Jun 2009 19:15:24 -0700
Subject: [ADV] Blatant marketing of the book Pro Hadoop. In honor of the 09 summit here is a 50% off coupon,

In honor of the Hadoop Summit on June 10th(tomorrow), Apress has agreed to provide some conference swag, in the form of a 50% off coupon. Purchase the book at http://eBookshop.apress.com and use code LUCKYOU,  for 50% off the list price. The coupon has a short valid time so don’t delay your purchase 🙂


http://www.apress.com/book/view/9781430219422
www.prohadoopbook.com a community for Hadoop Professionals

El descuento, que al parecer solamente se aplica al eBook, permite adquirir el libro por $14.00. Yo pre-ordené la versión impresa en Amazon $36.37 (incluyendo el S&H). Acabo de revisar el estado de la orden, y me dice Amazon que me lo enviará el 22 de junio. Anteriormente, compré el libro de Hadoop de O’Reilly en versión digital e impresa. Todavía no me llega la impresa, pero a la digital ya tengo acceso desde hace algunos meses. Lo he leído por partes, y está bastante bueno, pero no sé cómo se compara con el Pro Hadoop. Acabo de enterarme también de que hay un tercer libro de Hadoop en proceso: Hadoop in Action. Lastimosamente no he podido encontrar comentarios comparándolos, así que no sabría cuál recomendarles.

Sqoop: SQL-to-Hadoop

junio 8th, 2009

La gente de Cloudera ha desarrollado una herramienta llamada Sqoop, que sirve para facilitar el proceso de importar datos de una base de datos al HDFS. Más información, incluyendo unas diapositivas muy explicativas, en el blog de Cloudera.

How to Debug MapReduce Programs

junio 8th, 2009

El proceso de debugging para programas MapReduce suele ser más complejo que para programas no distribuidos. Una página en el Wiki de Hadoop contiene varios tips que pueden hacer este proceso más sencillo.

Apuntes de las Clases

junio 4th, 2009

Irene Varas está documentando en su blog los detalles de las clases de la materia. El recurso sin duda será de gran utilidad para aquellos estudiantes que por alguna razón falten a clase.

Foros para la Materia de Graduación

junio 3rd, 2009

De ahora en adelante, usaremos también cuatro foros para la materia.

Read the rest of this entry »

Opera busca un Hadoop Engineer

junio 3rd, 2009

A través de la lista core-user de hadoop, acabo de recibir la siguiente info.:

From: Usman Waheed <usmanw@opera.com>
To: core-user@hadoop.apache.org
Date: Wed, 03 Jun 2009 15:05:56 +0200
Subject: Opera Software AS – Job Opening: Hadoop Engineer
Greetings All,

Opera Software AS (www.opera.com) in Oslo/Norway is looking for an experienced Hadoop Engineer to join the Statistics Team in order to provide business intelligence metrics both internally and to our customers.
If you have the experience and are willing to relocate to beautiful Oslo/Norway please contact me at usmanw@opera.com.
Kindly don’t forget to attach your resume and specify «Opera Software AS – Job Opening: Hadoop Engineer» in the subject line of the email.

Best Regards,
Usman

Pienso que durante este año y el próximo, muchas empresas van a empezar a necesitar gente con experiencia de desarrollo en Hadoop, por lo que adquirir un buen nivel de destreza en esta herramienta será de mucho beneficio para mejorar las oportunidades laborales.

Datasets disponibles en la Web

mayo 25th, 2009

En clase surgió la pregunta de qué datasets hay disponibles de manera gratuita para procesar. Hay una lista muy extensa disponible en datawrangling.com, la cual puede servir de punto de partida para ideas de proyectos de procesamiento masivo de datos. La lista es realmente grande, pero vale la pena analizarla ya que hay datasets interesantes, como por ejemplo el de Audioscrobbler, que puede ser usado para sistemas de recomendaciones de música.

En otra entrada en el mismo blog, Peter Skomoroch escribe:

So what can you do with Elastic MapReduce? Here are a few initial ideas:

  • Offload background processing from your Rails or Django app to Hadoop by sending the ElasticMapReduce API job requests pointing to data stored on S3: convert PDFs, classify spam, deduplicate records, batch geocoding, etc.
  • Process large amounts of retail sales and inventory transaction data for sales forecasting and optimization
  • Use the AddJobFlowSteps method in the API to run iterative machine learning algorithms using MapReduce on a remote Hadoop cluster and shut it down when your results converge to an answer

I’ll post more on this later today – including a detailed explanation of using Netflix Prize data in the code example and some next steps for using Elastic MapReduce.

Me parece que lo publicado en ese blog es de interés para la materia, así que lo he añadido al costado de esta página para poder seguirlo con facilidad. 

¿Morirán las datawarehouses?

mayo 22nd, 2009

En un paper escrito por alguna gente de Greenplum, los autores argumentan que en la época de la Big Data (muchos muchos datos a ser procesados), los esquemas tradicionales de datawarehousing y business intelligence se vuelven obsoletos. Ellos proponen otra alternativa que han denominado análisis de datos MAD (Magnetic, Agile, Deep). En el paper, dan un ejemplo real de Fox Interactive Media, que antes de la propuesta planteada por Greenplum, recurría a un complejo proceso de datawarehousing+exportar resultados+procesamiento intermedio con scripts+procesamiento con MapReduce (Hadoop). La alternativa de ellos combina SQL y MapReduce en la base de datos de manera nativa, y a decir de los autores, les permitió «volverse locos» (go MAD) con el análisis de datos.

NOTA a los alumnos de la materia: creo que este paper es de interés para todos. Léanlo (no es necesario que lo entiendan al 100%) para poder discutirlo la próxima clase.

¡En sus marcas, listos, fuera!

mayo 22nd, 2009

Hoy tuvimos la primera clase de la materia de graduación, y empezamos viendo una introducción a la programación en paralelo y la programación distribuida.

Para que sea más fácil llevarle la pista a las actividades pendientes y entregables, he creado una página llamada «Actividades». También revisen frecuentemente la página de los proyectos, en donde trataré de publicar información de interés para los diferentes grupos.

Más sobre los AWS

mayo 22nd, 2009

El Elastic MapReduce de Amazon promete facilitar el proceso de levantar clusters Hadoop. Todavía no he tenido la oportunidad de probar este nuevo servicio, así que opté por registrarme al Webinar de la próxima semana.

Otro nuevo servicio interesante es el AWS Import/Export que permite enviar los data sets vía correo tradicional en lugar de usar la red. Esto resolvería el problema descrito en otra entrada anterior.