lhfredfly 2019-12-09
本篇采用“理论+实战"的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。秉承循序渐进、易于理解,学以致用和便于查询的讲授理念,讲解时结合了大量实例和作者多年积累的一线开发经验。
共分为13章,涵盖的主要内容有:
集群及开发环境搭建:快速构建一个Hadoop项目并线上运行: Hadoop套件实战: Hive编程一使 用SQL提交MopReduce任务到Hadoop集群:游戏玩家的用户行为分析一特征提取: Hadoop平台管 理与维护: Hadop异常 处理解决方案:初识Hadoop核心源码: Hadoop通信机制和内部协议: Hadoop分布式文件系统剖析: ELK实战案例一游戏应用实时日志分析平台: Knha实战案例一实时 处理游戏用户数据: Hadop拓展一Karka剖析。
本篇通俗易懂,案例丰富,实用性强。不但适合初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有开发经验的程序员进阶提高。另外,还适合社会培调机构和相关院校作为教材或者教学参考书。
大数据时代,数据的存储与挖掘至关重要。企业在追求高可靠性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。
Hadoop在分布式计算与存储上具有先天优势。它作为Apache软件基金会的顶级开源项目,其版本迭代持续至今,而且已经拥有一个非常活跃的社区和全球众多开发者,并且成为了当前非常流行的大数据处理平台。很多公司,特别是互联网公司,都纷纷开始使用或者已经使用Hadoop来做海量数据存储与数据挖掘。
Hadoop简单易学,其学习曲线平缓且学习周期短。它的操作命令和Linux命令非常相似。一个熟悉Linux的开发者只需要短短的一周时间, 就可以学会Hadoop开发,完成一个高可用集群的部署和高可用应用程序的编写。
学习目录以及章节简单介绍:
第1章集群及开发环境搭建,本章介绍的主要内容包括:环境准备;安装Hadoop;演示Hadoop版Hello World示例程序,以及搭建Hadoop开发环境。
第2章实战: 快速构建一个Hadoop项目并线上运行,本章首先介绍了快速构建项目工程的方法,如Maven和Java Project; 然后介绍了分布式文件系统的操作命令,以及利用IDE提交MapReduce作业的相关知识:最后介绍了编译应用程序并打包,以及部署与调度等内容。
第3章Hadoop套件实战,本章介绍了Hadoop生态圈中常见的大数据套件的背景知识和使用方法,涵盖Sqoop、Flume、HBase、 Zeppelin. Drill 及Spark 等套件。
第4章Hive编程一 使 用SQL提交MapReduce任务到Hadoop集群,本章主要介绍了Hive数据仓库的相关内容: Hive 底层设计组成;安装和配置Hive;基于Hive应用接口进行编程:开源监控工具Hive Cube.
第5章游戏玩家的用户行为分析特征提取,本章首先对Hadoop的基础知识进行了梳理;然后介绍了项目的背景和平台架构;接着对项目进行了整体分析与指标设计,并进行了技术选型:最后对分析的指标进行了编码实践。
第6章Hadoop平台 管理与维护,本章介绍了Hadoop平台管理与维护的重要方法。本章首先介绍了Hadoop分布式文件系统的特性,然后介绍了HDFS的基础命令,并对NameNode进行了解读。另外,本章对Hadoop平台维护时的常规操作,如节点管理、HDFS快照和安全模式等内容也进行了讲解。
第7章Hadoop异 常处理解决方案,本章介绍了Hadoop异常处理解决方案的几个知识点。主要内容包括:跟踪日志:分析异常信息:利用搜索引擎检索关键字:查看Hadoop JIRA:阅读Hadoop源代码。本章最后以实战案例的形式分析了几种异常情况:启动HBase集群失败: HBase表查询失败: Spark 的临时数据不自动清理等。
第8章初识Hadoop核心源码,本章首先介绍了Hadoop源码基础环境准备及源代码编译:接着介绍了Hadoop的起源和两代MapReduce框架间的差异:最后介绍了Hadoop的序列化机制。
第9章Hadoop通信机制和内部协议,本章首先介绍了Hadoop通信模型和Hadoop RPC的特点:然后通过编码实践介绍了Hadoop RPC的使用,同时还介绍了与之类似的开源RPC框架:最后介绍了MapReduce的通信协议和RPC协议的实现过程。
第10章Hadoop分布式文件系统剖析,本章主要介绍了Hadoop分布式文件系统的设计特点、命令空间和节点、数据备份策略等内容,最后以实战的形式演示了跨平台数据迁移的过程。
第11章ELK实战案例一 游戏应用实时 日志分析平台,本章介绍了常用的ELK套件: Logstash实时日志采集、 分析和传输:Elasticsearch分 布式存储及搜索引擎: Kibana-- 可 视化管理系统。
第12章Kafka实战案例一 实 时处理游戏用户数据,本章首先介绍了Kafka 项目的背景,以及Kafka集群和Storm集群的安装过程:然后对项目案例进行了分析与指标设计,并利用笔者多年的大数据开发经验设计项目体系架构:最后演示了各个模块的编码实现,如生产模块、消费模块、数据持久化实现及应用调度实现等。
第13章Hadoop拓展 Kafka剖析,本章主要介绍了Katfka 的基本特性与结构,以及笔者设计并开发的开源Kafka监控工具Kafka Eagle.本章关键知识点包括: Katfka 开发与维护:开源监控工具Kafka Eagle的使用: Kalka 源代码分析,如分布式选举算法剖析、Kafka Ofiset解读、Kafka 存储机制和副本刚析等。
读者对象
●Hadoop初学者;
●Hadoop进阶人员;
●后端程序初学者;
●前端转后端的开发人员;
●熟悉Linux和Java而需要学习Hadoop的编程爱好者;
●想用Hadoop快速编写海量数据处理程序的开发者;
●相关培训机构的学员和高等院校的学生。
因文章篇幅限制,小编在这里就不多做过多的介绍了。
需要本Hadoop大数据挖掘:从入门到进阶实战技术文档的小伙伴,就可以转发此文关注小编,私信小编“学习”来得到获取方式吧。