Hadoop

HJWZYY 2020-06-21

一、概述

1.Hadoop 是 Apache提供的开源的、可靠的、可扩展的,用于分布式计算的框架

2.Hadoop 除了官网提供的发行版本以外,各大厂商也提供了发行版:Cloudera的CDH、华为的HDP

二、发展

1.创始人:Doug Cutting和Mike Cafarella

2.在2002年,Doug和Mike为了实现搜索引擎Nutch爬取了全网的10亿个网页的数据

3.在2003年,Google发表了《The Google FileSystem》(GFS)阐述了google分布式存储的原理,但是并没有公开这个框架

4.在2004年,Doug和Mike根据google论文设计实现的NDFS - Nutch Distributed FileSystem,解决了海量数据的存储

5.在2004年,Google发表了一篇关于Google的分布式计算的思想,同样这篇论文也没有公开框架的使用

6.Doug和Mike又根据这篇论文设计实现了用于Nutch的MapReduce

7.在Nutch0.8版本,Doug和NDFS和MapReduce从Nutch中分离出来组成了Hadoop,同时将NDFS改为HDFS

8.在2008年,Doug加入了Yahoo,开源了Hadoop,在Yahoo期间设计实现了Pig、HBase等框架

9.Yahoo将Hadoop、Pig、HBase等全部贡献了Apache

三、Hadoop模块

1.Hadoop Common:基本模块,用于支持其他模块

2.Hadoop Distributed FileSystem:分布式文件系统,用于存储数据

3.Hadoop Yarn:用于进行任务调度和资源管理

4.Hadoop MapReduce:基于Yarn进行并行计算的框架

5.Hadoop Ozone:用于进行对象存储 - 基于HDFS

6.Hadoop Submarine:用于机器学习的引擎

四、版本

1.Hadoop1.0:包含来的HDFS以及MapReduce

2.Hadoop2.0:包含来的HDFS、MapReduce以及Yarn。Hadoop2.0和Hadoop1.0完全不兼容,在Hadoop2.0的高版本中也支持Ozone

3.Hadoop3.0:包含了Hadoop所有的模块 - 2017.12

五、安装

1.单机:安装包解压之后就能使用,此时就是单机模式,在单机模式下,只能使用其中的MapReduce组件,其他组件不生效,此时数据默认是存储在本机文件系统中

2.伪分布式:利用一个节点来模拟集群环境,在一个节点上去启动集群中所有需要的进程 - 优势在于可以使用hadoop的所有组件

3.完全分布式:利用集群来部署Hadoop

相关推荐