cdjiehua 2019-11-19
图作为一种表示和分析大数据的有效方法,已成为社交网络、推荐系统、网络安全、文本检索和生物医疗等领域至关重要的数据分析和挖掘工具。
以上这些领域,腾讯几乎都涉及到了,所以,对于腾讯超过十亿级节点的超大规模社交网络数据,计算性能显得尤为重要。
遗憾的是,工业界和学术界的各种分布式图计算框架,对于腾讯超大规模社交网络图数据,性能达不到可用的要求。
大厂是大厂,大到工业界和学术界的框架都无法满足它。
今天介绍的这个项目就是:腾讯自研的高性能图计算框架 —— Plato,将算法计算时间从天级缩短到分钟级,性能提升数十倍,达到业界领先水平,并且打破了动辄需要数百台服务器的资源瓶颈,最少只需十台服务器即可完成计算。
Plato 目前主要提供两方面的能力:
Plato 的整体架构如下图所示。Plato 可运行在通用的 X86 集群,如 Kubernetes 集群、Yarn 集群等。在文件系统层面,Plato 提供了多种接口支持主流的文件系统,如 HDFS、Ceph 等等。
Plato 的计算性能遥遥领先于主流的分布式图计算框架。下图选取了 Plato 与 Spark GraphX 在 PageRank 和 LPA 这两个 benchmark 算法的性能对比,从下图可以看到,Plato 的性能比 Spark GraphX 高出 1-2 个数量级。
Plato 不仅在 benchmark 算法中独树一帜,在真实的业务算法中也同样成效卓著。在腾讯数据量级下,Plato 的计算性能也非常优秀。下图给出了 Plato 在腾讯数据量级下的共同类计算、Node2Vec、LINE、GraphSage 等典型业务算法的性能。
想了解更多,请阅读原文。
开源项目地址:https://github.com/Tencent/plato
开源项目组织:Tencent