hweiyi 2017-08-03
一、hadoop(由于数据量急速增长,hadoop应运而生)
1.是什么?
他是一个java编写的框架
2.hadoop作用?
作用:分布式存储和分布式计算
分布式存储:(多台机器存储,例如云盘存储【分布式】)
HDFS:Hadoop分布式
分布式计算(Mapreduce):一套程序在多台机器中运行(合理分工)
分布式计算的目的:节省计算时间,提高计算效率(TB、PB级别的数据)
要点:不是所有程序都可以进行分布式计算(只有可以分阶段的程序才能进行分布式计算)
3.ApacheHadoop
相关项目:
利用延伸框架进行操作,避免大量的底层代码
Ambar:管理、监控平台
Avro:数据序列化系统(多语言)
Cassandra:不存在单点问题的数据库(不是单点,比如:分布式数据库)
Chukwa:数据收集系统(把不同节点的数据收集起来送到不同的目的)
HBase:支持大量结构化数据存储的数据库
Hive:支持数据汇总和即席查询的数据仓库
Mahout:机器学习和数据挖掘的library
Pig:高层次的数据量语言
Spark:快速的通用的计算引擎
Tez:通用的数据流编程框架
ZooKeeper:一款高性能的分布式服务提供协调服务的框架
4.
第三方公司的hadoop
ClouderaHadoop
HortonWorksHadoop
数据操作系统:YARN
5.hadoop核心项目
HDFS:分布式文件系统
Yarn:资源管理平台,计算模型由MapReduce(只有它属于apache)、Storm、Spark
(资源拥堵,竞争的时候就需要管理调度)
如果说yarn是公路,那么计算模型就是各种汽车
6.HDFS的架构
(1)负责数据的分布式存储
(2)主从结构:主节点[namenode]、从节点[datanode]
(3)namenode负责:接收用户的请求,维护文件系统的目录结构,称为命名空间
(4)datanode负责:存储文件
7.Yarn的架构
(1)资源的调度和管理平台
(2)主从结构:主节点[ResourceManager]、从节点[NodeManager]
(3)ResourceManager负责:集群资源的分配、调度
(4)NodeManager负责:单节点资源的管理
8.MapReduce的架构
(1)依赖磁盘io的批处理计算模型
(2)主从结构:主节点[JobTracker]、从节点[TaskTracker]
(3)JobTracker负责:接收客户提交的计算任务、把计算任务分给TaskTracker执行,即任务调度、监控TaskTracker的执行情况
(4)TskTracker负责:执行JobTracker分配的任务