uk8692 2019-06-26
上篇笔记做了一个简单的了解,这次咱们需要了解下谷歌的三篇论文Google FS、MapReduce、BigTable(一定搜下看看然后过几遍)以后再来进行下边的学习 。
各章概述,继续熏陶
Hadoop部分
Hadoop的起源与背景知识
1.大数据的核心问题: (1)数据的存储:分布式文件系统(分布式存储) (2)数据的计算:分布式计算 2.概念:数据仓库(Data warehouse) (1)我们可以把Hadoop和Spark看成是数据仓库的一种实现方式 (2)数据仓库就是一个数据库,一般只做select (3)重要的一点:掌握数据仓库的搭建过程 (4)数据仓库又是一种OLAP的应用系统
3.概念:OLTP和OLAP (1)OLTP:online transaction processing联机事务处理 (2)OLAP:online analytic processing联机分析处理---->不会修改(删除)数据 4.(最重要的内容)Google的3篇论文 (1)GFS:Google File System ---> HDFS ---> 解决数据的存储 (2)MapReduce计算模型 ---> Hadoop MapReduce ---> 解决数据的计算 (3)BigTable大表 ---> Hbase是NoSQL数据库
Apache Hadoop的体系结构(重要):实现Google的思想论文
1.HDFS:Hadoop Distributed File System (1)主从结构 (2)主节点:NameNode名称节点 (3)从节点:DataNode数据节点 (4)SecondaryNameNode:第二名称节点
2.Yarn:是一个容器,运行MapReduce程序 (1)主从结构 (2)主节点:ResourceManager 资源管理器 (3)从节点:NodeManager 节点管理器 3.HBase:需要单独安装 (1)主从结构 (2)主节点:HMaster (3)从节点:RegionServer
Hadoop2.X的安装与配置
Hadoop有三种安装模式 (1)本地模式 ---> 一台Linux (2)伪分布模式 ---> 一台Linux (3)全分布模式 ---> 三台Linux (4)掌握面密码登录的原理和配置
Hadoop应用案例分析
(1)大数据背景下,企业级系统的架构的变化 (2)HBase进行日志分析 (3)Hadoop在淘宝的应用 了解下
HDFS:Hadoop的分布式文件系统,数据存储
(1)操作HDFS:1.命令行 2.Java API 3.网页:Web Console (2)原理:数据上传的过程和数据下载的过程 (3)HDFS的底层实现:RPC和java动态代理 RPC:remote procedure call (4)高级特性: 1.回收站 2.快照snapshot:是一种备份 3.配额quota:名称配额和空间配额 4.安全模式:safemode 5.权限
MapReduce:是一个计算模型,可以用java来实现
1.Demo:经典的WordCount 2.重点:MapReduce处理数据的过程 3.原理:Yarn执行MapReduce的过程 4.MapReduce的高级特性 (1)序列化 (2)排序 (3)分区 (4)合并 5.MapReduce的核心:Shuffle(洗牌) 6.编程案例: (1)排序:order by (2)去重:distinct (3)多表查询 (4)倒排索引
HBase:NoSQL数据库
1.是基于Hadoop之上的NoSQL 2.体系结构:HMaster、RegionServer 3.搭建:本地模式、伪分布模式、全分布模式 4.操作:命令行、Java API、WebConsole 5.过滤器:实现复杂的查询 6.HBase上的MapReduce
Hadoop的集群和HA
1.HDFS的联盟(Federation) 2.Hadoop的HA(High Avaiblity高可用性)
Storm:处理流式数据(实时计算)
集成Storm和Redis