读书笔记1：Hadoop初始及单机版和集群版的安装

李春春 2013-01-09

读书笔记：Hadoop初始及单机版和集群版的安装

1，hadoop的第一个程序（统计文档中个单词出现的次数）

/*

public class WordCount extends Configured implements Tool{

public static class MapClass extends MapReduceBase implements Mapper<LongWritable,Text,Text,IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text();

public void map(LongWritable key,Text value,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{

String line = value.toString();

StringTokenizer itr = new StringTokenizer(line);//使用空格进行分词

while(itr.hasMoreTokens()){

word.set(itr.nextToken());//把Token放入Text对象中

output.collect(word,one);

}

}

}

public static class Reduce extends MapReduceBase implements Reducer<Text,IntWritable,Text,IntWritable>{

public void reduce(Text key,Iterator<IntWritable> values,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{

int sum = 0;

while(values.hasNext()){

sum+=values.next().get();

}

output.collect(key,new IntWritable(sum));//输出每个Token的统计结果

}

}

}

*/

2，初始hadoop

（1）NameNode（名字节点）

它位于HDFS的主端，它指导从端的DataNode执行底层I/O任务。运行NameNode会消耗大量的内存和I/O资源。索引NameNode服务器不会同时是DataNode或者TaskTracker。但是他有一个负面的影响，就是Hadoop集群的单点失效。

（2）DateNode（数据节点）

每个集群上的节点都会驻留一个DataNode的守护进程，来执行分布式文件系统的繁重工作。NameNode告知客户端每个数据块驻留在哪个DataNode里，那么客户端直接于DataNode进行通信，而DataNode之间会相互通信，而且DataNode不断向NameNode报告。

（3）Secondary NameNode（次名字节点）

SNN是一个用于检测HDFS集群状态的辅助守护进程，像NameNode一样，SNN通常也是独占一台服务器，该服务器不会运行其他的DataNode或是TaskTracker守护进程。NameNode是Hadoop集群的单一故障点，而SNN快照可以有助于减少停机的时间降低数据丢失的风险。

（4）JobTracker（作业跟踪节点）

JobTracker守护进程是应用程序和Hadoop之间的纽带，一旦提交代码到集群上，JobTracker会确定一系列的执行计划，如果任务失败，JobTracker会自动重启。每个Hadoop集群只有一个JobTracker守候进程，运行在服务器集群的主节点上。

（5）TaskTracker（任务跟踪节点）

TaskTracker管理各个任务在每个从节点上的运行情况。

3，hadoop的安装

（1）单机版hadoop的安装（请参见单机版hadoop的安装.doc）

（2）集群版hadoop的安装（请参见单机版hadoop的安装.doc）

注：以下是SSH的安装

<1>为hadoop集群安装SSH

安装hadoop集群时，需要专门指定一个服务器作为主节点，这个服务器会常驻NameNode和JobTracker守护进程，它也将作为一个基站，负责联络并激活所有从节点上的DataNode和TaskTracker。因此我们要为主节点定义一种手段，使他能够远程的访问到集群中的每个节点。因此，Hadoop使用了无口令的SSH协议。

<2>定义一个公共账号

hadoop-user

<3>SSH的安装

·切换到root用户 su root

·安装SSH sudo apt-get install ssh

·ubuntu服务器上生成私钥和公钥 ssh-keygen

显示：Enter file in which to save the key (/root/.ssh/id_rsa):

这里是问你私钥和公钥存放在什么地方，回车表示默认

显示：Created directory '/root/.ssh'.

这里是让你设置密码，输入自己的密码，一定要记住啊。（4位以上）

显示：Enter same passphrase again

再次输入密码，然后回车

显示：

Your identification has been saved in /root/.ssh/id_rsa.

你的私钥存放位置/root/.ssh/id_rsa.

Your public key has been saved in /root/.ssh/id_rsa.pub.

你的公钥存放位置/root/.ssh/id_rsa.pub

然后地下就是密码的信息。

: 李春春

相关推荐

8种ETL调度算法归纳总结，看完这些你就全明白了

目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

沐诩 0喜欢 / 0评论 2020-09-25

vmware扩展跟分区

进行的操作：在 windows 下运行 CMD , 转到 vmware 的安装目录,可执行vmware-vdiskmanager.exe；在Linux下，直接敲入vmware-vdiskmanager ,可执行该指令扩充使用的指令: vmware-vdis

周公周金桥 0喜欢 / 0评论 2020-09-06

几种分布式事务技术的比较

对业务侵入很强。已经提交的事务，不保证隔离性。不会脏读，性能介于seata和2阶段之间。seata和lcn大致的实现思路是一致的，但是回滚的机制不一样。

zjuwangleicn 0喜欢 / 0评论 2020-09-04

CSS知识点（三）

text-align:center:内容水平居中，可以让行内元素和行内块元素水平居中，不可以让块状元素居中。则他们之间的垂直间距不是margin-bottom与margin-top之和，而是两者中的较大者?,这种现象被称为相邻块元素垂直外边距的合并。确定页

hellowzm 0喜欢 / 0评论 2020-08-18

Wyn Enterprise中如何转换数据类型？

在设计报表或者仪表板时，有时候从数据集获取到的数据类型和我们分析所需的类型并不匹配，不是同一种数据类型，可能会造成无法将数据正确分类或者过滤等情况。此处主要是仪表板数据集的数据类型转换。此处要注意，直接通过下拉选择调整类型可能部分情况不会生效。此时，需要使

大象从不倒下 0喜欢 / 0评论 2020-07-31

css基础--盒子模型

1 绝大多数标签都可以看作盒子，可以设置宽高或设置内容；在CSS中，"box model"这一术语是用来设计和布局时使用。　　CSS盒模型本质上是一个盒子，封装周围的HTML元素，它包括：边距，边框，填充，和实际内容。　　盒模型允许我们

AlisaClass 0喜欢 / 0评论 2020-07-19

一个简单的CSS登录页

<!DOCTYPE html>. <meta name="viewport" content="width=device-width,initial-scale=1.0">. height:

尚衍亮 0喜欢 / 0评论 2020-06-12

css常用的简写技巧_css background简写、css border 简写、css font属性简写等

css样式中有很多简写方式，比如：设置背景，字体，边框，盒子等。我们都可以把css代码合并为一行，这篇文章将总结有哪些属性支持css简写。font:normal small-caps bold 14px/1.5em ‘宋体‘,arial,verdana;d

淡风wisdon大大 0喜欢 / 0评论 2020-06-06

Blogs顶部添加欢迎信息

<div style="text-align: center; font-size:20px; margin-bottom:0px; margin-top:0px; opacity:0.5; ">欢迎来到Panda.Li个

黎豆子 0喜欢 / 0评论 2020-05-07

《肖申克的救赎》百度百科网络爬虫

<!doctype html>. margin: 0;width: 780px;height: 50px;margin: 150px auto 75px;text-indent: -9999em;width: 780px;margin: 0 a

hilary0 0喜欢 / 0评论 2020-05-04

09、移动性能优化

（工程化手段可以解决。源码到可以上线的代码）。首屏代码用内联，其他可以用外联。js文件，没有dom操作的，如屏幕适配，可放head里面。js文件，有dom操作的，放在body结束前。用css画图或者用图标字体代替图片。//这样就执行了30次dom操作了

zhanghao 0喜欢 / 0评论 2020-04-21

多张图片懒加载

ul li { height: 900px; margin: 100px auto; text-align: center; }. oDiv.style.display = ‘block‘ : oDiv.style.display = ‘none‘

MaureenChen 0喜欢 / 0评论 2020-04-21

知识图谱如何改变银行业务模式？

知识图谱被构造为附加的虚拟数据层，位于现有数据库之上，并将数据大规模链接在一起。由于知识图谱基于知识和概念，因此要想创建良好的知识图谱，必须让整个组织内不同领域的主题专家都参与进来。试图建立自己的知识图谱的金融机构不必从头开始。由于知识图谱能够以智能的方式

xingguanghai 0喜欢 / 0评论 2020-03-13

absoulue与relative配合定位盒子居中问题

如何通过absoulue与relative配合把一个盒子或者是把2个div块同时放到页面中央部分？定位完成后为什么又需要margin-left与margin-top各往回走50%的长度，别忘记用z-index定位高度，请看下面代码展示:

nercon 0喜欢 / 0评论 2020-02-22

CSS----属性

颜色属性被用来设置文字的颜色。text-align 属性规定元素中的文本的水平对齐方式。center 把文本排列到中间。justify 实现两端对齐文本效果。line-height: 200px; 文本行高通俗的讲，文字高度加上文字上下的空白区域的高

impress 0喜欢 / 0评论 2020-02-20

jSon和Ajax登录功能，ajax数据交互案例

<input type="text" name="user" id="user" placeholder="请输入注册手机号" autocomplete="of

ajaxtony 0喜欢 / 0评论 2020-02-18

web第六天，CSS优先级与盒子模型

　　　　通过设置inherit值，可以改变默认的继承方式。　　　　当设置相同样式时，后写的优先级较高，但不建议出现重复设置样式的情况。　　　　场景：紧急情况下使用。　　　　群组选择器与单一选择器的权重相同，靠后写的优先级高。　　　　3，padding属

teresalxm 0喜欢 / 0评论 2020-02-18

css面试题

定位位置为 left: 50%; 然后 margin-left: -50px; 向左偏移元素宽度的一半。跟上面方法差不多，用 transform: translateX; 代替 margin-left，这样就不需要知道元素的宽度了。弹性布局什么的最喜欢了。

福叔 0喜欢 / 0评论 2020-02-16

Spring Cloud Spring Boot mybatis分布式微服务：Spring Security

首先，构建一个简单的Web工程，以用于后续添加安全控制，也可以用之前Chapter3-1-2做为基础工程。若对如何使用Spring Boot构建Web应用，可以先阅读《Spring Boot开发Web应用》一文。可以看到在index.html中提供到/he

mituan 0喜欢 / 0评论 2020-01-17

宜信微服务架构落地及其演进

应用服务架构一直处于不断演进的过程中，上图通过对比 5 种比较主流的架构模式，展示应用架构的演进历程和变化。在业务发展初期，为了快速落地应用，满足客户需求，一般会使用 All in One 的单体架构。主流的面向服务的架构模式有：RPC 架构、ESB 中心

NET追求者BLOG 0喜欢 / 0评论 2020-01-06

css布局及鼠标悬浮下拉框展现

<span class="span-left"> 信息。。。。。。。。。<span class="span-right"><span>评论|</span><spa

木四小哥 0喜欢 / 0评论 2013-05-14

RESTful service resources总结

如果要说什么是REST的话，那最好先从Web（万维网）说起。准确来说说REST只是一种概念、风格或者约束，是回归HTTP本身的建议。的确，在REST中我们关注技术实际上也只是URI、HTTP、Hypertext而已。　　Roy在他的论文中提出了一个REST

slivelight 0喜欢 / 0评论 2013-05-13

基于Bootstrap和jQuery的可视化页面布局程序

但源网站使用起来有一些bug, 于是基于原网站程序作了一下如下优化:. 增加HTML5的localStorage本地化储存功能, 关闭网页重新打开能恢复之前的编辑界面。增加"撤销/重做" 操作。增加IE的兼容处理。修复iOS设备上的可用

zh000 0喜欢 / 0评论 2013-05-10

Scope- ruby中变量的作用范围

当程序从一个class，或者module，或者method进入（退出）时，作用域就会改变，对应的3个关键字为：class module，和 def，每一个关键字的位置就是作用域的入口。class和module的作用域于method的不同，当定义class

SoShellon 0喜欢 / 0评论 2013-06-01

rails常用命令

数据库迁移部分：。rake db:create 依照目前的 RAILS_ENV 環境建立資料庫。rake db:rollback STEP=n 回復上N個 Migration 動作。rake db:migrate:up VERSION=2008090612

chenshuixian 0喜欢 / 0评论 2013-06-01

编写高效的JavaScript程序

一个基本的编译器，在代码执行前分析JavaScript、生成本地机器代码而非执行字节代码或是简单的解释，该段代码之初不是高度优化的。V8用对象模型“表述”对象。在JavaScript中，对象是一个关联数组，但是V8中，对象被“表述”为隐藏类，这种隐藏类是V

donghedonghe 0喜欢 / 0评论 2013-05-31

Nginx 下缓存静态文件（如css js)(转)

如css,js,htm,html,jpg,gif,png,flv,swf，这些文件都不是经常更新。便于缓存以减轻服务器的压力。proxy_cache cache_one;设置缓存共享内存区块，也就是keys_zone名称。proxy_cache_valid

Simagle 0喜欢 / 0评论 2013-05-31

浏览器缓存机制

Cache-Control 是最重要的规则。这个字段用于指定所有缓存机制在整个请求/响应链中必须服从的指令。这些指令指定用于阻止缓存对请求或响应造成不利干扰的行为。这些指令通常覆盖默认缓存算法。缓存指令是单向的，即请求中存在一个指令并不意味着响应中将存在同

羽化大刀Chrome 0喜欢 / 0评论 2013-05-31

（转）Hibernate笔记一

为了方便跟踪sql执行，在hibernate.cfg.xml文件中加入<property name="hibernate.show_sql">true</property>. 了解get和load的区别？-- p

manbucy 0喜欢 / 0评论 2010-05-03

css公共样式

.f12{font-size:12px}. .f13{font-size:13px}. .f14{font-size:14px}. .f16{font-size:16px}. .f20{font-size:20px}. .fb{font-weight:bo

zengni 0喜欢 / 0评论 2020-01-08

css的margin与padding练习

DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>margin<

waterv 0喜欢 / 0评论 2020-01-08

svn c命令

大数据资料共享。

ganyouxianjava 0喜欢 / 0评论 2012-05-31

(转载)无联网情况下如何让MyEclipse 识别 spring-beans-2.5.xsd 文件

使用myeclipse开发spring，在编写配置文件的时候可能遇到无法使用帮助，来自动添加xml元素的问题，是因为无法查找spring的DTD描述。这里做个记录手工添加DTD的方法window--》preferences--》MyEclipse--》Fi

tdeclipse 0喜欢 / 0评论 2011-02-28

inotify+rsync实现linux文件批量更新[转]

Timeout = 300通过该选项可以覆盖客户指定的IP超时时间.通过该选项可以确保rsync服务器不会永远等待一个崩溃的客户端.超时单位为秒钟,0表示没有超时定义,这也是默认值.对于匿名rsync服务器来说,一个理想的数字是600.#transfer

LutosX 0喜欢 / 0评论 2013-07-29

linux_5 个获取 Linux 主机信息的命令

Linux 系统管理员在接手一台新的服务器的时候，如果没有好的交接文档，我们可以得到的主机信息就要靠我们自己了。很多信息是可以直接通过命令从主机上获得的，下面就和大家分享 5 个获取 Linux 主机信息的命令。您可能会注意到，主机名通常也出现在命令提示符

vanturman 0喜欢 / 0评论 2013-06-27

Linux中SWAP交换分区

编辑 /etc/fstab文件，并增加如下第二行代码。如果您喜欢这篇文章。UUID=b45eed4a-b319-43fa-9d03-200c558b5d84 / ext4 defaults 1 1UUID=0ab45aeb-98f7-4f31-863d-7

wutongyuq 0喜欢 / 0评论 2013-04-12

mac系统如何显示和隐藏文件

显示Mac隐藏文件的命令：defaults write com.apple.finder AppleShowAllFiles YES. 隐藏Mac隐藏文件的命令：defaults write com.apple.finder AppleShowAllFil

luoqu 0喜欢 / 0评论 2013-04-10

CentOS安装JAVA 问题总结一

原因：jdk软件位数与操作系统位数不符，有可能是64位的软件装在了32位的系统上。

Justypc 0喜欢 / 0评论 2013-04-08

Homebrew的安装与使用

Mac OS X是基于Unix的操作系统，可以安装大部分为Unix/Linux开发的软件。然而，如果只是以使用为目的，对每个软件都进行手工编译不是很方便，也不利于管理已安装的软件，于是出现了类似于Linux中APT、Yum等类似的软件包管理系统，其中最著名

YoungForever 0喜欢 / 0评论 2013-04-04

企鹅日记（九）：正则表达式

正则表达式就是处理字符串的方法，它以行为单位来进行字符串的处理行为，正则表达式通过一些特殊符号的辅助，可以让用户轻易达到查找、删除、替换某特定字符串的处理程序。正则表达式基本上就是一种“表示法”，只要工具程序支持这种表示法，那么该工具程序就可以利用正则表达

ligaoyuan00 0喜欢 / 0评论 2013-03-31

CentOS安装sendmail及设置

sendmail是Linux下优秀的邮件系统。在不做任何设定的情况下，sendmail发出邮件的邮箱源地址形如[email protected]，这种地址几乎会被所有的邮箱认定为SPAM或直接拒收。在CentOS下，sendmail一般默认是

swift 0喜欢 / 0评论 2013-03-26

linux 启动ftp服务，sftp服务

启动ftp服务：在/etc/rc.d/init.d/目录下：命令 service vsftp start启动ssh服务，sftp服务在/etc/init.d/目录下：命令 /etc/init.d/sshd start 注意这里需要在绝对路径下执行sshd

xasdfg 0喜欢 / 0评论 2013-03-25

如何为 Mac 安装 Java？

要在 Mac OS X 上运行 Java 7，需要 64 位浏览器。在 Mac 平台上，32 位浏览器不支持 Java 7。下面的屏幕截图和说明适用于 Java 7 Update 6 。如果正在安装其他版本，请务必相应地更改版本号。示例：对于 Java 版

quanhaoH 0喜欢 / 0评论 2013-06-17

linux 常用查看命令

# uname -a # 查看内核/操作系统/CPU信息。# hostname # 查看计算机名。# lsusb -tv # 列出所有USB设备。# lsmod

shipinsky 0喜欢 / 0评论 2013-06-17

linux磁盘分区fdisk命令详解

分区是将一个硬盘驱动器分成若干个逻辑驱动器，分区是把硬盘连续的区块当做一个独立的磁硬使用。分区表是一个硬盘分区的索引,分区的信息都会写进分区表。数据激增到极限不会引起系统挂起：将用户数据和系统数据分开，可以避免用户数据填满整个硬盘，引起的系挂起。

youmuontheway 0喜欢 / 0评论 2013-06-04

Mac 命令大全

命令名功能描述使用举例。mkdir 创建一个目录mkdir dirname. mvdir移动或重命名一个目录mvdir dir1 dir2. pwd显示当前目录的路径名pwd. cat显示或连接文件cat filename. od显示非文本文件的内容o

bluefire 0喜欢 / 0评论 2013-05-31

Mac OSX 常用软件整理

系统工具。图形处理。网络工具。日常办公。-----

luoqu 0喜欢 / 0评论 2013-05-31

Mac OSX 10.8安装SVN的方法

Mac OS X 10.8安装SVN的常用的三种方法。Xcode安装命令行工具

elim0 0喜欢 / 0评论 2013-05-31

Vim的分屏功能

本篇文章主要教你如何使用Vim分屏功能。使用小写的o参数来水平分屏。关闭当前窗口，如果只剩最后一个了，则退出Vim。上下分割当前打开的文件。这个功能还是使用了Vim的光标键，只不过都是大写。下面是改变尺寸的一些操作，主要是高度，对于宽度你可以使用Ctrl+

fairytale0 0喜欢 / 0评论 2013-07-19

0060 translate、margin 实现绝对定位的盒子水平居中、垂直居中

<!DOCTYPE html>. <meta name="viewport" content="width=device-width, initial-scale=1.0">. <met

玫瑰小妖 0喜欢 / 0评论 2019-12-31