王开源 2019-12-27
??
LFAI & Angel
?
Angel的特征工程模块基于Spark开发,增强了Spark的特征选择功能,同时使用特征交叉和重索引实现了自动特征生成。这些组件可以无缝地整合进Spark的流水线。为了让整个系统更加的智能,Angel 3.0新增了超参数调节的功能。
?
在模型服务方面,Angel 3.0提供了一个跨平台的组件Angel Serving,不仅可以满足Angel自身的需求,还可以为其他平台提供模型服务。在生态方面,Angel也尝试将参数服务器(PS)能力共享给其他的计算平台,目前已经完成了Spark On Angel和PyTorch On Angel两个平台的建设。
?
图计算体系架构
?
在3.0版本中,Angel重点研发了图机器学习功能,包括图表示和图神经网络学习模型,同时提供预处理、图挖掘等端到端数据处理能力,具有丰富的算法库,提供了同构图、异构图多种图计算范式和不同种类的图算法。经过腾讯内部业务的大规模实践,Angel在图算法性能上同样表现出众,例如十亿节点、千亿边规模的图结构,运行算法时能以Spark GraphX三分之一的计算资源,达到十倍处理性能。
?
?
图计算性能对比
?
除了技术功能上的完善,Angel在社区生态上也日趋成熟。据了解,在全行业Angel拥有超过 100家公司和机构用户,其中包括微博、华为、微众银行、小米、滴滴等大型互联网企业。基于Angel构建的一站式机器学习应用平台智能钛TI,支持了包括微信支付、腾讯广告、微视等在内的诸多腾讯内部产品,同时也通过腾讯云对外开放为更多行业企业提供服务。
?
截止目前,Angel在GitHub上已经获得了5500 Star,1400 Fork,在技术、应用、生态等方面的优秀表现均得到了开源社区的认可。此前在腾讯2019 Techo开发者大会上,蒋杰还宣布了资源管理平台核心TKE和分布式数据库TBase的正式开源。腾讯正在成为大数据领域开源最全面的公司。
?
开源协同是当前腾讯最重要的技术战略之一。在今年的重庆智博会上,腾讯公司董事会主席兼首席执行官马化腾专门提及了对开源的重视,他表示,腾讯希望在科研领域投入更多力量,将通过内外部开源等方式,积极参与“全球科技共同体”的共建。
?
截止2019年11月,仅在Github上,腾讯就开源了91个项目,有超过1000个贡献者参与,获得超过26万个Star数,在Github全球公司贡献榜上居于前列。腾讯还加入了Linux、Apache等9大开源基金会,并成为最高级别会员。其中LF AI基金会是由Linux基金会发起的人工智能领域的专项开源基金会,旨在倡导和组织AI开源平台和工具共同参与建设,共同享有IP知识产权,创建可持续发展的开源AI生态系统。
?
2018年,腾讯因在AI开源领域的卓越技术影响力,受邀作为LF?AI基金会的初始白金会员加入,拥有董事会和技术咨询委员会席位,并于同年向基金会捐赠高性能分布式机器学习平台Angel。