读书笔记1:Hadoop初始及单机版和集群版的安装

李春春 2013-01-09

读书笔记:Hadoop初始及单机版和集群版的安装

1,hadoop的第一个程序(统计文档中个单词出现的次数)

/*

public class WordCount extends Configured implements Tool{

public static class MapClass extends MapReduceBase implements Mapper<LongWritable,Text,Text,IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text();

public void map(LongWritable key,Text value,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{

String line = value.toString();

StringTokenizer itr = new StringTokenizer(line);//使用空格进行分词

while(itr.hasMoreTokens()){

word.set(itr.nextToken());//把Token放入Text对象中

output.collect(word,one);

}

}

}

public static class Reduce extends MapReduceBase implements Reducer<Text,IntWritable,Text,IntWritable>{

public void reduce(Text key,Iterator<IntWritable> values,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{

int sum = 0;

while(values.hasNext()){

sum+=values.next().get();

}

output.collect(key,new IntWritable(sum));//输出每个Token的统计结果

}

}

}

*/

2,初始hadoop

(1)NameNode(名字节点)

它位于HDFS的主端,它指导从端的DataNode执行底层I/O任务。运行NameNode会消耗大量的内存和I/O资源。索引NameNode服务器不会同时是DataNode或者TaskTracker。但是他有一个负面的影响,就是Hadoop集群的单点失效。

(2)DateNode(数据节点)

每个集群上的节点都会驻留一个DataNode的守护进程,来执行分布式文件系统的繁重工作。NameNode告知客户端每个数据块驻留在哪个DataNode里,那么客户端直接于DataNode进行通信,而DataNode之间会相互通信,而且DataNode不断向NameNode报告。

(3)Secondary NameNode(次名字节点)

SNN是一个用于检测HDFS集群状态的辅助守护进程,像NameNode一样,SNN通常也是独占一台服务器,该服务器不会运行其他的DataNode或是TaskTracker守护进程。NameNode是Hadoop集群的单一故障点,而SNN快照可以有助于减少停机的时间降低数据丢失的风险。

(4)JobTracker(作业跟踪节点)

JobTracker守护进程是应用程序和Hadoop之间的纽带,一旦提交代码到集群上,JobTracker会确定一系列的执行计划,如果任务失败,JobTracker会自动重启。每个Hadoop集群只有一个JobTracker守候进程,运行在服务器集群的主节点上。

(5)TaskTracker(任务跟踪节点)

TaskTracker管理各个任务在每个从节点上的运行情况。

 

3,hadoop的安装

(1)单机版hadoop的安装(请参见 单机版hadoop的安装.doc)

(2)集群版hadoop的安装(请参见 单机版hadoop的安装.doc)

 注:以下是SSH的安装

<1>为hadoop集群安装SSH

安装hadoop集群时,需要专门指定一个服务器作为主节点,这个服务器会常驻NameNode和JobTracker守护进程,它也将作为一个基站,负责联络并激活所有从节点上的DataNode和TaskTracker。因此我们要为主节点定义一种手段,使他能够远程的访问到集群中的每个节点。因此,Hadoop使用了无口令的SSH协议。

<2>定义一个公共账号

hadoop-user

<3>SSH的安装

·切换到root用户    su root 

·安装SSH    sudo apt-get install ssh

·ubuntu服务器上生成私钥和公钥 ssh-keygen

显示:Enter file in which to save the key (/root/.ssh/id_rsa): 

这里是问你私钥和公钥存放在什么地方,回车表示默认

显示:Created directory '/root/.ssh'.

这里是让你设置密码,输入自己的密码,一定要记住啊。(4位以上)

显示:Enter same passphrase again

再次输入密码,然后回车

显示:

Your identification has been saved in /root/.ssh/id_rsa.

你的私钥存放位置/root/.ssh/id_rsa.

Your public key has been saved in /root/.ssh/id_rsa.pub.

你的公钥存放位置/root/.ssh/id_rsa.pub

然后地下就是密码的信息。

 

 

 

相关推荐

ganyouxianjava / 0评论 2012-05-31