Mahout安装测试

loveyy 2014-09-08

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头,目前已经有了三个公共发行版本。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。

Mahout 的创始人 Grant Ingersoll 介绍了机器学习的基本概念,并演示了如何使用 Mahout 来实现文档聚类、提出建议和组织内容。

1:下载

下载地址:http://mahout.apache.org

直接下载http://mirrors.cnnic.cn/apache/mahout/0.9/mahout-distribution-0.9.tar.gz

2:解压

[linuxidc@linuxidc01 ~]$ cd hadoop
[linuxidc@linuxidc01 hadoop]$ ls
074600-99999-2013.gz  hadoop-1.2.1.tar.gz            mahout-distribution-0.9.tar.gz
awk                  java                            sample.txt
hadoop-1.2.1          tmp
[linuxidc@linuxidc01 hadoop]$ tar zxf mahout-distribution-0.9.tar.gz

[linuxidc@linuxidc01 hadoop]$ ls
074600-99999-2013.gz  hadoop-1.2.1        java                    mahout-distribution-0.9.tar.gz  tmp
awk                  hadoop-1.2.1.tar.gz  mahout-distribution-0.9  sample.txt

3:配置环境

未修改前

[linuxidc@linuxidc01 hadoop]$ cd ..
[linuxidc@linuxidc01 ~]$ cat .bash_profile
# .bash_profile

# Get the aliases and functions
if [ -f ~/.bashrc ]; then
        . ~/.bashrc
fi

# User specific environment and startup programs

PATH=$PATH:$HOME/bin

export PATH
export JAVA_HOME=$HOME/jdk1.7.0_45
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=$HOME/hadoop/hadoop-1.2.1
export ANT_HOME=$HOME/apache-ant-1.9.4
export HBASE_HOME=$HOME/hbase-0.94.21
export SQOOP_HOME=$HOME/sqoop-1.99.3-bin-hadoop100
export CATALINA_HOME=$SQOOP_HOME/server
export LOGDIR=$SQOOP_HOME/logs

export PATH=$PATH:$ANT_HOME/bin:$HBASE_HOME/bin:$SQOOP_HOME/bin:$HADOOP_HOME/bin

修改后

[linuxidc@linuxidc01 ~]$ cat .bash_profile
# .bash_profile

# Get the aliases and functions
if [ -f ~/.bashrc ]; then
        . ~/.bashrc
fi

# User specific environment and startup programs

PATH=$PATH:$HOME/bin

export PATH
export JAVA_HOME=$HOME/jdk1.7.0_45
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=$HOME/hadoop/hadoop-1.2.1
export HADOOP_CONF_DIR=$HOME/hadoop/hadoop-1.2.1/conf
export ANT_HOME=$HOME/apache-ant-1.9.4
export HBASE_HOME=$HOME/hbase-0.94.21
export SQOOP_HOME=$HOME/sqoop-1.99.3-bin-hadoop100
export CATALINA_HOME=$SQOOP_HOME/server
export LOGDIR=$SQOOP_HOME/logs

export MAHOUT_HOME=$HOME/hadoop/mahout-distribution-0.9
export MAHOUT_CONF_DIR=$HOME/hadoop/mahout-distribution-0.9/conf

export PATH=$PATH:$ANT_HOME/bin:$HBASE_HOME/bin:$SQOOP_HOME/bin:$HADOOP_HOME/bin:$MAHOUT_HOME/bin

几个重要环境变量
JAVA_HOME    mahout运行需指定jdk的目录
MAHOUT_JAVA_HOME指定此变量可覆盖JAVA_HOME值
HADOOP_HOME  如果配置,则在hadoop分布式平台上运行,否则单机运行
HADOOP_CONF_DIR指定hadoop的配置文件目录
MAHOUT_LOCAL    如果此变量值不为空,则单机运行mahout。
MAHOUT_CONF_DIR  mahout配置文件的路径,默认值是$MAHOUT_HOME/src/conf
MAHOUT_HEAPSIZE  mahout运行时可用的最大heap大小

相关推荐