forjustice 2014-05-16
1.前言。
spark0.8.1+shark0.8.1+hadoop2.2的整合,总体感觉是累。
中间的章节由于时间问题还没整理处理,这里做些总体的评论。
2.评测。
(1)spark跑在6台8核6G的电脑的wordcount并没有达到秒级,还是分钟级别,spark的牛吹大了。
(2)与传统hadoop结合方面,shark是一边倒在了CDH,cloudra給了钱也不能丢完节操啊。因为shark不支持传统hadoop,我最终表示放弃走shark路线。一个从开源走到封闭,并且完全由一个变化莫测的公司去主导自己的开发的产品,注定走不长久。
(3)spark和shark并没有发挥并行的优势,传说中的比map-reduce快90的谎言,在这里我需要揭破一下。
(4)hadoop如果再一边倒到CDH方面的话,hadoop我也要剔除在选型范围,不是说和CDH有仇,只是请尊重开源开发者自由选型的权利。
3.结束。
spark+shark在CDH的干扰下被扼杀了创造力。想法是好的,走的路反了。