hadoop的含义以及常用的一些项目以及核心

hweiyi 2017-08-03

一、hadoop(由于数据量急速增长,hadoop应运而生)

1.是什么?

他是一个java编写的框架

2.hadoop作用?

作用:分布式存储和分布式计算

分布式存储:(多台机器存储,例如云盘存储【分布式】)

HDFS:Hadoop分布式

分布式计算(Mapreduce):一套程序在多台机器中运行(合理分工)

分布式计算的目的:节省计算时间,提高计算效率(TB、PB级别的数据)

要点:不是所有程序都可以进行分布式计算(只有可以分阶段的程序才能进行分布式计算)

3.ApacheHadoop

相关项目:

利用延伸框架进行操作,避免大量的底层代码

Ambar:管理、监控平台

Avro:数据序列化系统(多语言)

Cassandra:不存在单点问题的数据库(不是单点,比如:分布式数据库)

Chukwa:数据收集系统(把不同节点的数据收集起来送到不同的目的)

HBase:支持大量结构化数据存储的数据库

Hive:支持数据汇总和即席查询的数据仓库

Mahout:机器学习和数据挖掘的library

Pig:高层次的数据量语言

Spark:快速的通用的计算引擎

Tez:通用的数据流编程框架

ZooKeeper:一款高性能的分布式服务提供协调服务的框架

4.

第三方公司的hadoop

ClouderaHadoop

HortonWorksHadoop

数据操作系统:YARN

5.hadoop核心项目

HDFS:分布式文件系统

Yarn:资源管理平台,计算模型由MapReduce(只有它属于apache)、Storm、Spark

(资源拥堵,竞争的时候就需要管理调度)

如果说yarn是公路,那么计算模型就是各种汽车

6.HDFS的架构

(1)负责数据的分布式存储

(2)主从结构:主节点[namenode]、从节点[datanode]

(3)namenode负责:接收用户的请求,维护文件系统的目录结构,称为命名空间

(4)datanode负责:存储文件

7.Yarn的架构

(1)资源的调度和管理平台

(2)主从结构:主节点[ResourceManager]、从节点[NodeManager]

(3)ResourceManager负责:集群资源的分配、调度

(4)NodeManager负责:单节点资源的管理

8.MapReduce的架构

(1)依赖磁盘io的批处理计算模型

(2)主从结构:主节点[JobTracker]、从节点[TaskTracker]

(3)JobTracker负责:接收客户提交的计算任务、把计算任务分给TaskTracker执行,即任务调度、监控TaskTracker的执行情况

(4)TskTracker负责:执行JobTracker分配的任务

相关推荐