bluewelkin 2018-09-25
1. Hadoop压缩数据的优势:
压缩的数据使用较少的带宽。
压缩的数据使用较少的磁盘。
加速数据在磁盘和网络上的传输。
降低成本。
2. Hadoop支持的一般算法:
LZO Gzip Bzip2 LZ4 Snappy
各个算法对比如下:
3. 压缩算法效率比较
算法对比总结:
gzip是普通的压缩器,bzip压缩性能好于gzip但速度慢,LZO由很多小块组成。LZO和Snappy的压缩速度好但压缩效率低,解压是gzip的两倍。Snappy解压缩好于LZO
4. MapReduce设置压缩算法的核心代码
//设置reduce端输出进行压缩
FileOutputFormat.setCompressOutput(job, true);
//设置reducer端压缩的类型
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
通过实现MapReduce计算结果保存到MySql数据库过程,掌握多种方式保存计算结果的技术,加深了对MapReduce的理解;创建maven项目,项目名称hdfs,这里不再说明。红色部分为增加内容: