Mahout es una librería de código abierto escrita en java que implementa algoritmos de aprendizaje automático (Machine Learning). Mahout proporciona algortimos para realizar recomendaciones, clasificar y agrupar información

Los siguientes pasos fueron ejecutados en una computadora con sistema operativo Ubuntu 10.10 de 32 bits. Sin embargo no dudo que funcionen en otras versiones. Los comandos fueron ejecutados usando el terminal de Ubuntu, la consola.

INSTALAR JDK

Mahout está escrito en java por eso necesitamos el jdk (java development kit) para compilar modificaciones que le hagamos al código.

Abre el archivo de las fuentes de paquetes de Ubuntu con tu editor de texto favorito. Yo usaré nano.

sudo nano /etc/apt/sources.list

Si no lo tienes ejecuta en el terminal

sudo apt-get install nano

Dentro del archivo quita el símbolo numeral «#» de los repositorios de canonical

deb http://archive.canonical.com/ubuntu maverick partner
deb-src http://archive.canonical.com/ubuntu maverick partner

Cierra el editor nano con «Ctrl + x» y presiona ENTER para guardar los cambios.

Actualiza la lista de paquetes disponibles

sudo apt-get update

Instala el jdk

sudo apt-get install sun-java6-jdk

Agrega la variable JAVA_HOME al archivo .profile y cambia el PATH


cd --
sudo nano .profile

Añadimos antes de PATH

JAVA_HOME = /usr/lib/jvm/java-6-sun-1.6.0.22 export JAVA_HOME
Nota: Tú versión puede ser otra, cámbiala por la que tienes.

Añade en el PATH la variable JAVA_HOME
PATH=$PATH:$JAVA_HOME/bin

Cierra, guarda.
Haz que los cambios sean tomados por el sistema
source .profile

INSTALAR APACHE MAVEN

La librería Mahout tiene una estructura dada por el gestor de proyectos Apache Maven. Para instalar Maven sigue los pasos que están al final de esta página http://maven.apache.org/download.html o sigue los que te muestro a continuación.

Descárgalo de la página oficial. Escoge la opción con extensión tar.gz (Para el ejemplo usaré la version 2.0.11)

Copia la descarga en el directorio /opt
sudo cp Descargas/apache-maven-2.0.11-bin.tar.gz /opt/

Ve hacia ese directorio y descomprímelo
cd /opt
sudo tar -xvzf apache-maven-2.0.11-bin.tar.gz

Crear la variable de ambiente M2_HOME
En consola:

cd --
nano .profile

Agregamos al final del archivo

M2_HOME=/opt/apache-maven-2.0.11 export M2_HOME
PATH=$PATH:$M2_HOME/bin

Guardamos el archivo y escribimos
source .profile
para que los cambios sean leidos por el sistema

Comprobar que este instalado con
mvn -version

taws3@taws3-desktop:~$ mvn -version
Warning: JAVA_HOME environment variable is not set.
Apache Maven 2.0.11 (r909250; 2010-02-12 00:55:50-0500)
Java version: 1.6.0_22
Java home: /usr/lib/jvm/java-6-sun-1.6.0.22/jre
Default locale: es_EC, platform encoding: UTF-8
OS name: «linux» version: «2.6.35-22-generic» arch: «i386» Family: «unix»

El warning que aparece es por no establecer la variable de entorno JAVA_HOME

Establecer JAVA_HOME
Una vez instalado el jdk se debe establecer la variable de entorno JAVA_HOME

Agregamos la variable al archivo .profile y cambiamos el PATH

nano .profile

Añadimos antes de PATH
JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.22 export JAVA_HOME

Añadimos en el PATH la variable
PATH=$PATH:$JAVA_HOME/bin

Al final nos queda asi
M2_HOME=/opt/apache-maven-2.2.1 export M2_HOME
JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.22 export JAVA_HOME
PATH=$PATH:$JAVA_HOME/bin:$M2_HOME/bin

Guardamos el archivo y escribimos en consola
source .profile

Comprobamos que maven este instalado correctamente
mvn -version
Y el warning por java desaparecio

Mahout
Descarga Mahout .Escoge la que tiene extension tar.gz
http://www.apache.org/dyn/closer.cgi/mahout/

Copia la carpeta descargada a donde quieras, yo lo hago en /home/taws3. La version 0.3 de Mahout es antigua, actualmente van por la 0.6 pero para el tutorial sirve.
cp Descargas/mahout-0.3-src.tar.gz /home/taws3/

Ve al directorio donde la copiaste y descomprime el archivo
cd /home/taws3
sudo tar -xvzf mahout-0.3-src.tar.gz

 

Opcional: Elimina el archivo comprimido (ya lo tenemos la carpeta descomprimida)
rm -rf mahout-0.3-src.tar.gz

Dar permisos en las carpetas de mahout
sudo chmod -R 777 mahout-0.3/*

Ve al directorio principal de mahout
cd mahout-0.3

Escribe este comando que compilara los archivos y evitara correr los tests.
mvn install -DskipTests=true

Si todo sale bien al final BUILD SUCCESSFUL entonces puedes trabajar tranquilamente con Mahout. -DskipTests=true es para evadir los test al momento de compilar, estos muchas veces dan problemas.

LISTO! Mahout esta listo para ser usado!