uk8692 2019-06-26
上篇笔记做了一个简单的了解,这次咱们需要了解下谷歌的三篇论文Google FS、MapReduce、BigTable(一定搜下看看然后过几遍)以后再来进行下边的学习 。
各章概述,继续熏陶
Hadoop部分
Hadoop的起源与背景知识
1.大数据的核心问题:
(1)数据的存储:分布式文件系统(分布式存储)
(2)数据的计算:分布式计算
2.概念:数据仓库(Data warehouse)
(1)我们可以把Hadoop和Spark看成是数据仓库的一种实现方式
(2)数据仓库就是一个数据库,一般只做select
(3)重要的一点:掌握数据仓库的搭建过程
(4)数据仓库又是一种OLAP的应用系统
3.概念:OLTP和OLAP
(1)OLTP:online transaction processing联机事务处理
(2)OLAP:online analytic processing联机分析处理---->不会修改(删除)数据
4.(最重要的内容)Google的3篇论文
(1)GFS:Google File System ---> HDFS ---> 解决数据的存储
(2)MapReduce计算模型 ---> Hadoop MapReduce ---> 解决数据的计算
(3)BigTable大表 ---> Hbase是NoSQL数据库
Apache Hadoop的体系结构(重要):实现Google的思想论文
1.HDFS:Hadoop Distributed File System
(1)主从结构
(2)主节点:NameNode名称节点
(3)从节点:DataNode数据节点
(4)SecondaryNameNode:第二名称节点

2.Yarn:是一个容器,运行MapReduce程序
(1)主从结构
(2)主节点:ResourceManager 资源管理器
(3)从节点:NodeManager 节点管理器
3.HBase:需要单独安装
(1)主从结构
(2)主节点:HMaster
(3)从节点:RegionServerHadoop2.X的安装与配置
Hadoop有三种安装模式
(1)本地模式 ---> 一台Linux
(2)伪分布模式 ---> 一台Linux
(3)全分布模式 ---> 三台Linux
(4)掌握面密码登录的原理和配置Hadoop应用案例分析
(1)大数据背景下,企业级系统的架构的变化
(2)HBase进行日志分析
(3)Hadoop在淘宝的应用 了解下HDFS:Hadoop的分布式文件系统,数据存储
(1)操作HDFS:1.命令行 2.Java API 3.网页:Web Console
(2)原理:数据上传的过程和数据下载的过程
(3)HDFS的底层实现:RPC和java动态代理
RPC:remote procedure call
(4)高级特性:
1.回收站
2.快照snapshot:是一种备份
3.配额quota:名称配额和空间配额
4.安全模式:safemode
5.权限MapReduce:是一个计算模型,可以用java来实现
1.Demo:经典的WordCount
2.重点:MapReduce处理数据的过程
3.原理:Yarn执行MapReduce的过程
4.MapReduce的高级特性
(1)序列化
(2)排序
(3)分区
(4)合并
5.MapReduce的核心:Shuffle(洗牌)
6.编程案例:
(1)排序:order by
(2)去重:distinct
(3)多表查询
(4)倒排索引HBase:NoSQL数据库
1.是基于Hadoop之上的NoSQL 2.体系结构:HMaster、RegionServer 3.搭建:本地模式、伪分布模式、全分布模式 4.操作:命令行、Java API、WebConsole 5.过滤器:实现复杂的查询 6.HBase上的MapReduce
Hadoop的集群和HA
1.HDFS的联盟(Federation) 2.Hadoop的HA(High Avaiblity高可用性)
Storm:处理流式数据(实时计算)
集成Storm和Redis