分布式文件系统,机架感知以及掌握数据仓库搭建过程

上篇笔记做了一个简单的了解，这次咱们需要了解下谷歌的三篇论文Google FS、MapReduce、BigTable（一定搜下看看然后过几遍）以后再来进行下边的学习 。

各章概述，继续熏陶

Hadoop部分
Hadoop的起源与背景知识

1.大数据的核心问题：
       （1）数据的存储：分布式文件系统（分布式存储）
       （2）数据的计算：分布式计算
   2.概念：数据仓库（Data warehouse）
       （1）我们可以把Hadoop和Spark看成是数据仓库的一种实现方式
       （2）数据仓库就是一个数据库，一般只做select
       （3）重要的一点：掌握数据仓库的搭建过程
       （4）数据仓库又是一种OLAP的应用系统

数据仓库搭建过程

分布式文件系统,机架感知以及掌握数据仓库搭建过程

3.概念：OLTP和OLAP
        （1）OLTP：online transaction processing联机事务处理
        （2）OLAP：online analytic processing联机分析处理---->不会修改(删除)数据
    4.（最重要的内容）Google的3篇论文
        （1）GFS：Google File System ---> HDFS ---> 解决数据的存储
        （2）MapReduce计算模型 ---> Hadoop MapReduce ---> 解决数据的计算
        （3）BigTable大表 ---> Hbase是NoSQL数据库

实验环境

分布式文件系统,机架感知以及掌握数据仓库搭建过程

Apache Hadoop的体系结构（重要）：实现Google的思想论文

1.HDFS:Hadoop Distributed File System
       (1)主从结构
       (2)主节点：NameNode名称节点
       (3)从节点：DataNode数据节点
       (4)SecondaryNameNode:第二名称节点

分布式文件系统与机架感知

分布式文件系统,机架感知以及掌握数据仓库搭建过程

2.Yarn:是一个容器，运行MapReduce程序
        (1)主从结构
        (2)主节点：ResourceManager 资源管理器
        (3)从节点：NodeManager 节点管理器
    3.HBase:需要单独安装
        (1)主从结构
        (2)主节点：HMaster
        (3)从节点：RegionServer

Hadoop2.X的安装与配置

Hadoop有三种安装模式
       (1)本地模式  ---> 一台Linux
       (2)伪分布模式 ---> 一台Linux
       (3)全分布模式 ---> 三台Linux
       (4)掌握面密码登录的原理和配置

Hadoop应用案例分析

(1)大数据背景下，企业级系统的架构的变化
       (2)HBase进行日志分析
       (3)Hadoop在淘宝的应用 了解下

HDFS：Hadoop的分布式文件系统，数据存储

(1)操作HDFS：1.命令行 2.Java API 3.网页：Web Console
       (2)原理：数据上传的过程和数据下载的过程
       (3)HDFS的底层实现：RPC和java动态代理
                        RPC：remote procedure call
       (4)高级特性：
           1.回收站
           2.快照snapshot:是一种备份
           3.配额quota:名称配额和空间配额
           4.安全模式：safemode
           5.权限

MapReduce:是一个计算模型，可以用java来实现

1.Demo:经典的WordCount
   2.重点：MapReduce处理数据的过程
   3.原理：Yarn执行MapReduce的过程
   4.MapReduce的高级特性
       (1)序列化
       (2)排序
       (3)分区
       (4)合并
   5.MapReduce的核心：Shuffle(洗牌)
   6.编程案例：
       (1)排序：order by
       (2)去重：distinct
       (3)多表查询
       (4)倒排索引

Hive：蜂巢，数据分析的引擎：翻译器 SQL ---> MapReduce
Pig：猪，数据分析的引擎：翻译器 PigLation语言 ---> MapReduce

HBase：NoSQL数据库

1.是基于Hadoop之上的NoSQL
   2.体系结构：HMaster、RegionServer
   3.搭建：本地模式、伪分布模式、全分布模式
   4.操作：命令行、Java API、WebConsole
   5.过滤器：实现复杂的查询
   6.HBase上的MapReduce

Sqoop:数据采集引擎，采集关系型数据库中的数据
Flume:数据采集引擎，采集日志
HUE:基于Web的管理工具
ZooKeeper:相当于一个'数据库'，实现HA(High Avaiblity高可用性)

Hadoop的集群和HA

1.HDFS的联盟（Federation）
   2.Hadoop的HA（High Avaiblity高可用性）

Redis：基于内存的NoSQL数据库，提高性能
Storm：处理流式数据(实时计算)
```
集成Storm和Redis
```

分布式文件系统,机架感知以及掌握数据仓库搭建过程

数据仓库搭建过程

分布式文件系统与机架感知

相关推荐