分布式文件系统,机架感知以及掌握数据仓库搭建过程

uk8692 2019-06-26

上篇笔记做了一个简单的了解,这次咱们需要了解下谷歌的三篇论文Google FS、MapReduce、BigTable(一定搜下看看然后过几遍)以后再来进行下边的学习 。

各章概述,继续熏陶
  • Hadoop部分
    Hadoop的起源与背景知识

    1.大数据的核心问题:
           (1)数据的存储:分布式文件系统(分布式存储)
           (2)数据的计算:分布式计算
       2.概念:数据仓库(Data warehouse)
           (1)我们可以把Hadoop和Spark看成是数据仓库的一种实现方式
           (2)数据仓库就是一个数据库,一般只做select
           (3)重要的一点:掌握数据仓库的搭建过程
           (4)数据仓库又是一种OLAP的应用系统

数据仓库搭建过程

分布式文件系统,机架感知以及掌握数据仓库搭建过程

3.概念:OLTP和OLAP
        (1)OLTP:online transaction processing联机事务处理
        (2)OLAP:online analytic processing联机分析处理---->不会修改(删除)数据
    4.(最重要的内容)Google的3篇论文
        (1)GFS:Google File System ---> HDFS ---> 解决数据的存储
        (2)MapReduce计算模型 ---> Hadoop MapReduce ---> 解决数据的计算
        (3)BigTable大表 ---> Hbase是NoSQL数据库
  • 实验环境

分布式文件系统,机架感知以及掌握数据仓库搭建过程

  • Apache Hadoop的体系结构(重要):实现Google的思想论文

    1.HDFS:Hadoop Distributed File System
           (1)主从结构
           (2)主节点:NameNode名称节点
           (3)从节点:DataNode数据节点
           (4)SecondaryNameNode:第二名称节点

分布式文件系统与机架感知

分布式文件系统,机架感知以及掌握数据仓库搭建过程
分布式文件系统,机架感知以及掌握数据仓库搭建过程

2.Yarn:是一个容器,运行MapReduce程序
        (1)主从结构
        (2)主节点:ResourceManager 资源管理器
        (3)从节点:NodeManager 节点管理器
    3.HBase:需要单独安装
        (1)主从结构
        (2)主节点:HMaster
        (3)从节点:RegionServer
  • Hadoop2.X的安装与配置

    Hadoop有三种安装模式
           (1)本地模式  ---> 一台Linux
           (2)伪分布模式 ---> 一台Linux
           (3)全分布模式 ---> 三台Linux
           (4)掌握面密码登录的原理和配置
  • Hadoop应用案例分析

    (1)大数据背景下,企业级系统的架构的变化
           (2)HBase进行日志分析
           (3)Hadoop在淘宝的应用 了解下
  • HDFS:Hadoop的分布式文件系统,数据存储

    (1)操作HDFS:1.命令行 2.Java API 3.网页:Web Console
           (2)原理:数据上传的过程和数据下载的过程
           (3)HDFS的底层实现:RPC和java动态代理
                            RPC:remote procedure call
           (4)高级特性:
               1.回收站
               2.快照snapshot:是一种备份
               3.配额quota:名称配额和空间配额
               4.安全模式:safemode
               5.权限
  • MapReduce:是一个计算模型,可以用java来实现

    1.Demo:经典的WordCount
       2.重点:MapReduce处理数据的过程
       3.原理:Yarn执行MapReduce的过程
       4.MapReduce的高级特性
           (1)序列化
           (2)排序
           (3)分区
           (4)合并
       5.MapReduce的核心:Shuffle(洗牌)
       6.编程案例:
           (1)排序:order by
           (2)去重:distinct
           (3)多表查询
           (4)倒排索引
  • Hive:蜂巢,数据分析的引擎:翻译器 SQL ---> MapReduce
  • Pig:猪,数据分析的引擎:翻译器 PigLation语言 ---> MapReduce
  • HBase:NoSQL数据库

    1.是基于Hadoop之上的NoSQL
       2.体系结构:HMaster、RegionServer
       3.搭建:本地模式、伪分布模式、全分布模式
       4.操作:命令行、Java API、WebConsole
       5.过滤器:实现复杂的查询
       6.HBase上的MapReduce
  • Sqoop:数据采集引擎,采集关系型数据库中的数据
  • Flume:数据采集引擎,采集日志
  • HUE:基于Web的管理工具
  • ZooKeeper:相当于一个'数据库',实现HA(High Avaiblity高可用性)
  • Hadoop的集群和HA

    1.HDFS的联盟(Federation)
       2.Hadoop的HA(High Avaiblity高可用性)
  • Redis:基于内存的NoSQL数据库,提高性能
  • Storm:处理流式数据(实时计算)

    集成Storm和Redis

相关推荐