Allsle 2018-07-04
百度大脑 3.0 技术与能力一览。
7 月 4 日,一年一度的百度 AI 开发者大会在京如期举行。
大会现场,百度不仅分享了公司在 AI 技术、产品与平台等方面的研究成果与最新进展,还宣布了百度大脑的重磅升级,3.0 版本正式问世。
为此,百度高级副总裁、AI 技术平台体系(AIG)总负责人王海峰亲自站台对其展开了详细的解读。
「百度大脑 3.0 可以说是百度 AI 技术的集大成者。」王海峰如是说。
众所周知,百度在 AI 技术上有着长期的投入和积累。在回顾百度 AI 技术的发展历程时,王海峰提到了三个重要的时间节点。
2000 年,也就是十八年前,百度作为一家搜索公司诞生。由于搜索引擎背后除了互联网技术的支持,也离不开自然语言处理、信息检索等 AI 技术,因此在王海峰看来,百度从诞生的那一天起就开始了 AI 技术的研发与应用。
而在八年前的 2010 年,百度开始全面布局 AI 技术,先后开展了自然语言处理、计算机视觉、机器学习、数据挖掘、知识图谱等 AI 技术的研发。
两年后,百度开始着手深度学习技术的研发与应用,并在当年的百度图像语音等应用中正式上线。
鉴于深度学习技术在实际应用中的惊艳表现,百度在 2013 年成立了世界上第一个深度学习研究院,同时将深度学习技术率先应用于大规模线上搜索引擎之中,并于 2015 年上线了基于神经网络的机器翻译系统。
经过了十六年的积累,百度的 AI 技术日渐成熟。在此基础上,百度于 2016 年正式发布百度大脑 1.0,不仅供百度内部使用,还向开发者开放。
当时 1.0 版本的百度大脑在完成了基础能力的搭建之后,仅仅实现了语音、图像、用户画像和 PaddlePaddle 深度学习框架等核心技术的初步开放。
百度大脑基础架构
而伴随着时间的推移,百度大脑也逐渐塑造成型。
去年开发者大会发布的百度大脑 2.0 已经形成了完整的 AI 技术体系,向开发者开放的能力也超过了 60 项能力,既有各方面 AI 核心技术,也有场景化能力及解决方案。
而此次发布的百度大脑 3.0 在开放的能力数量方面又有了新的提升——已经超过 110 项。
王海峰表示,今早他看到的最新数字是 117 项。
而在能力数量增加的同时,百度的 AI 技术能力也在不断增强。王海峰介绍,此次百度大脑 3.0 的最核心技术,用一句话概括,就是多模态深度语义理解。
具体而言,就是对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,包括数据语义、知识语义、视觉语义、语音语义一体化和自然语言语义等多方面的语义理解技术。
换句话说,就是不仅要让机器可以听清、看清,还要能够深入理解其背后的含义,从而更好地支撑各种应用。
百度大脑 3.0 核心技术——多模态深度语义理解
在 AI 领域,数据的重要性自不用提。无论是物理世界、人类社会还是网络空间,都充斥着海量的多元、异构、多模态的三元空间大数据。
那么如何最大程度发挥这些数据的价值呢?
这就需要对数据进行加工、处理、挖掘和分析,实现数据的语义化进而加以利用。
为此,百度通过统一表征、关联计算,构建包含千亿节点、万亿关系的庞大数据语义网络,并在此基础上总结规律、提炼知识,进而助力经济和社会的发展。
王海峰举了一个新能源充电桩智能运维的例子。
结合百度的大数据、深度学习等技术,对充电桩设备数据进行采集、传输、存储、分析,就可以实现设备监测、故障诊断、预测性维保等,在提升效率的同时也大幅节约了成本。
当然,除了数据,理解大千世界中的多元知识也是打磨 AI 技术中的重要一环。而要构建出详尽而完备的知识图谱却并非易事,需要巧妙理清繁杂的垂直领域知识、梳理其中的逻辑。
而在这件事上,百度所投入的资源与人力显而易见,目前已经构建了包含数亿实体、数千亿级事实的庞大知识图谱。
除了基础的由实体、属性、关系构成的实体图谱,百度还针对不同的应用场景和知识形态,构建了关注点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱。
「知识图谱是人类进步的重要阶梯。」王海峰解释道,百度所掌握的这些知识是构建百度大脑的重要基础。
以世界杯相关的知识图谱为例,实体图谱可以看到热门球队、热门球星、赛场、赛程和主题歌等信息;关注点图谱可以体现用户对于 C 罗和梅西的兴趣所向;多媒体图谱则包括图片、音乐和视频;行业图谱和事件图谱覆盖了足球规则的各种知识和近 9 届世界杯的大事件。
这些不同类型的图谱通过关系关联起来,也会延展出新的图谱,构成庞大的多元语义知识网络。
大会现场,百度还播放了一段世界杯球赛视频,展示了百度大脑的视觉语义理解能力。视频中,系统不仅可以全面识别视频中的球员、裁判、球、以及球门、球场线等人、物和场景,还可以捕捉射门、进球、角球、任意球、换人等事件。
基于这些结构化语义信息,既可以完成机器人自动解说,也可以进行精彩片段集锦以及各种数据统计分析等。
百度大脑视觉语义能力在足球赛事中的展现
而在日常生活场景中,百度大脑的视觉语义理解能力也能够发挥作用。
在无人超市购物场景下,系统可以通过摄像头对超市中的人、货、场进行全方位识别,然后将图像信息进行时序化和结构化,让购物机器人能够掌握环境信息进而完成自动避障并引导顾客行进,让系统得以实时掌握顾客取拿的商品。
对于时下大热的无人零售领域,这项技术无疑是一种必不可少的存在。
百度大脑视觉语义能力在无人超市场景中的展现
在为「眼睛」赋予了理解能力后,百度大脑自然不会放过人类最重要的交流媒介——语音和语言。
在语音技术方面,百度大脑在高噪声环境 Hand-free 语音识别准确率上提升了 10 个百分点。与此同时,百度大脑采用语音语义一体化技术使得远场语音识别准确率也提升了 10 个百分点。
而为了让整个对话过程更加自然,百度大脑在语音的合成上采用拼接了 WaveNet+的情感语音合成技术,如此一来,既可以使得交互的流畅度大幅提升,又避免了计算量过大的问题。
目前,新版百度地图中的小度语音助手已经可以理解复杂的语义请求,面对「我要从三里屯的团结湖地铁站出发、路过望京家乐福、然后再去南锣鼓巷最后到我家,要红绿灯少的、不堵车的最快路径」这样的请求也丝毫不惧。
王海峰介绍,在对话理解上,百度研发了最新的深层注意力匹配模型并将其引入到系统之中,比已知的最好结果提升了 4.1%。从优化前后的结果来看,引入这种模型的对话交互的确更加自然。
而在阅读理解上,百度大脑已经阅读了千亿量级的文章,相当于 6 万个中国国家图书馆的藏书,积累了亿级实体、千亿事实的知识。
以葡萄牙和西班牙的比赛为例,通过阅读网上大量相关新闻,百度大脑不仅了解比赛的事件与主题,还能与用户进行问答及推荐互动。可以发现,通过持续获取和积累知识,百度大脑的智能水平得到了显著提升。
而在百度大脑各项技术与能力升级的背后,是百度在底层技术上的不断打磨与迭代,也离不开深度学习框架 PaddlePaddle 的支持。
2012 年,百度开始深度学习技术的研发,并从 2013 年自主研发深度学习平台,并让其服务于百度的多项核心业务。
在 2016 年 9 月,百度对外发布了自己的深度学习框架 PaddlePaddle。一年后,百度发布新一代深度学习框架 PaddlePaddle Fluid。
而今,百度的深度学习框架再次实现升级。王海峰在大会现场发布了最新版本——PaddlePaddle 3.0。
据王海峰介绍,PaddlePaddle3.0 核心框架还包括三个重要平台,分别为快速应用平台 EasyDL、网络结构自动化设计 AutoDL 以及在线实训平台 AI Studio。
其中,EasyDL 平台可以让零基础开发者迅速定制自己的应用,大幅降低了人们进入 AI 领域的门槛。
EasyDL 在制造业键盘组装合格性检测上的能力
而对于那些有基础的开发者来说,设计深度学习网络结构是一项相对耗时耗力的工作,AutoDL 的存在就是致力于帮助开发者节省设计深度学习网络结构的时间。
人工设计的网络结构与 AutoDL 网络设计效果比对
「我们不止是把核心算法做了升级,同时在服务器端以及移动端都有各自相应的服务可以支持各种场景的应用。」王海峰补充道。
在谈到深度学习框架与 AI 生态的关系时,王海峰认为深度学习框架可以类比为 AI 的操作系统,向下可以与 AI 芯片结合。
要知道,AI 芯片在对 AI 模型的计算进行专门优化后,性能会有很大的提升。从这个角度出发,王海峰表示深度学习框架相当于 AI 芯片的指令集。
值得一提的是,此次大会百度还发布了一款云端全功能 AI 芯片「昆仑」,主打高性能、高性价比、易用三大特点。百度表示,其运算能力比最新基于 FPGA 的 AI 加速器,性能提升了近 30 倍。
当然,没有经过真实场景使用的技术都是纸上谈兵,实践与应用才是培育技术最佳土壤。王海峰透露,目前百度大脑每天的调用次数已经超过了 4090 亿次,调用的人既有 AI 工程师,也有零 AI 基础的初入门者,还有来自各行各业希望用 AI 创新业务、为业务转型升级的企业。
不难想象,这些庞大的开发者群将成为百度大脑迭代更新路上的最大助力。
「估计明年我们再站在这里的时候就需要更大的屏幕来展示百度大脑开放给开发者的能力了。」王海峰总结说,「我们更希望我们的能力可以帮助开发者获得属于自己的成功,这也是我们最大的心愿。」
id=3&hmsr=%E5%BC%80%E5%8F%91%E8%80%85-AI%E5%AD%A6%E4%B9%A0%E8%B7%AF%E7%BA%BF&hmpl=&hmcu=&hmkw=&hmci=