木头的天空 2018-09-19
1. MLlib:
它是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。MLlib 目前支持四种常见的机器学习问题:二元分类,回归,聚类以及协同过滤,同时也包括一个底层的梯度下降优化基础算法。具有如下特点:
1)易用性:可以使用JAVA、Scala、Python接口
2)高性能:比MR快100+倍
3)快速部署:可以运行在已经安装好的Hadoop 2.0 集群上
2. GraphX:
它是一个分布式图处理框架,基于Spark平台提供对图计算和图挖掘简洁易用的而丰富多彩的接口,极大的方便了大家对分布式图处理的需求。具有如下特点:
1)灵活性:图表和集合可以无缝衔接
2)高性能:比其他图处理软件处理快
3)算法种类多:提供更多的图算法