sujins 2020-03-06
MapReduce 基于HDFS
1.环境搭建起来 伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段 MapReduce的编程模型4.Mapper类 继承Mapper类 重写Mapper方法5.Reduce类 继承Reducer类 重写Reduce方法6.Driver类=Mapper+Reduce+HDFS 整合起来7.打成一个jar包 上传到Linux上面8.hadoop jar jar包 Driver类 把任务跑起来9.MapReduce的开发 任务式开发 开发的一个个MapReduce程序 实际上就是一个个任务10.只是针对各种任务 它的需求不同 总体来说WordCount程序是最精华的程序
Map阶段
Reduce阶段
通过实现MapReduce计算结果保存到MySql数据库过程,掌握多种方式保存计算结果的技术,加深了对MapReduce的理解;创建maven项目,项目名称hdfs,这里不再说明。红色部分为增加内容: