竹取千树 2016-08-04
在1945年7月出版的《大西洋月刊》上,Vannevar Bush描绘了他的一个构想,一部可连接在普通眼镜上的头戴式照相机,可记录评论、照片以及科学实验数据。他这样写道:「想象一下未来实验室里的研究者,他的双手是自由的,他(研究员)的照相机比核桃还要小,附在普通眼镜......这远非是普通的构想」,在许多层面上,Vannevar Bush的构想都是如今这些AR设备的先驱。
几十年来,我们不断地发展AR技术来强化物理世界——每一次技术迭代都承诺要将物理世界变成一个虚拟世界的计算接口,但也只有在过去的几年里,我们的头戴设备才变得不那么硕大、笨重和昂贵,图像叠加技术也逐渐发展,不再局限在细细的线条内。
一、AR的意义和难点
大体来讲,AR主要可以带来三项革命性改变。
1)强交互特性。可以使得搜索结果、现实物体与用户深入交互,比如幼儿教育中,用AR展示三维动物并且与小孩互动,比如说 Magic Leap 展示过的。
2)虚实融合。实现之前不可能的场景:比如,远程协同办公,家具效果展示,将血管虚拟展示在病人身体上辅助医生手术。微软的 HoloLens 展示过在这方面的应用。
3)新的信息获取方式。AR是人和现实世界、信息交互的界面,改变人获取信息的方式,同时也改变人与物理世界交互的方式。
当然,要实现这些目标并不容易,尽管在各项相关技术越发成熟的今天,不管是科技公司,还是大众都意识到了AR的重要性,比起完全沉浸式的VR,AR有着广泛的多的应用场景,以及更高的技术门槛。这也是为何VR领域创业公司较多,而AR领域的大部分参与者几乎都是科技巨头。
出现这种现象的首个原因就是AR需要强大的技术支持,而科技巨头在这方面往往有着深厚的积累和不计成本的投入,尤其是趋势来临时。其中,与AR最为相关的一项技术就是在今天同样火热的人工智能,后者带来了图像、语音和自然语言处理技术的提升,从而在成像和交互等方面带来了AR的进步,成为其技术基础。
除了已经推出AR设备和系统的微软与谷歌,其他科技巨头也会凭借其在技术和应用上的优势,在AR领域占尽先机。比如说中国的百度,如上文所说,人工智能是AR的基础,而AR需要通过人工智能来感知真实世界,让现实更加智能。
二、深厚的AI技术是百度AR起航的动力
就在昨天,百度在其智能营销解决方案发布会上,发布了专为智能手机研发的AR平台“DuSee”。在吴恩达看来, DuSee是百度人工智能技术的自然延伸。该平台使用了复杂的计算机视觉技术和深度学习,去理解场景,然后增强场景。要想研发出优秀的AR技术,就必须应用更优的人工智能技术。
从技术环节来看,AR主要包括对现实世界的感知、真实世界和虚拟世界的信息融合、实时交互三个方面。DuSee是在百度大脑的基础上发展起来的平台。百度大脑利用Paddle深度学习并行计算平台,在百度的GPU集群上训练上千亿级数据样本。整个百度大脑有上万亿的参数,是全球最大的神经网络,在图像识别、语音交互等方向世界领先。利用百度大脑的技术和计算能力,百度AR技术在物体识别、三维环境感知、人机交互等核心方向建立了绝对优势。
首先,深度学习在图像识别和物体识别方面准确率的大幅提升可以帮助设备更好的感知世界。物体识别是AR的基础功能。通过摄像头识别场景中的物体,能够触发相关的AR,并且在数据库中找到相应的虚拟物体与信息。目前,百度的图像识别能力已经排名世界第一,达到了四万个物体种类的识别。同时,百度在大规模图片检索、商品垂类识别、人脸识别和 OCR 识别等技术方面也是出于世界领先水平。
其次,在信息融合方面,人工智能技术也会带来更加智能的定位和追踪功能,以及更加出色的图像渲染。百度的双目视觉里程计技术在 KITTI 数据集上多项指标位列前三位。百度自主研发的相机追踪算法能够为AR应用提供快速稳定的相机姿态估计结果,算法速度和准确度都处于业内领先水平。算法同时具备轻量,内存消耗低以及对相机对焦准确度要求宽松等技术优势,极好的适应了AR技术在移动设备上的要求。同时在三维视觉的其它基础技术领域也进行了积极的布局和积累。比如在基于图像的室内定位,双目视觉里程计,基于立体相机的景深感知,基于RGB-D相机的室内大规模重建等方向都取得了世界级的成果。相关研究成果被世界计算机视觉领域顶级会议如ICCV,CVPR录用,多项技术已经应用到百度的无人车项目中。
百度自主开发的跨平台三维渲染引擎,除了传统引擎的渲染功能,侧重于虚拟物体和现实环境的融合,包括动态真实环境的识别、实时三维图形的生成渲染、虚实混合中的光照一致性和虚实物体相互作用的一致性构建上
最后,在AR下,人和机器会出现一种有史以来最为自然的交互方式,人工智能在手势识别、语音识别和自然对话方面的成绩会成为这种自然交互的基础,而且近期在做多模识别,比如说基于自然语言处理和图像的 image caption 也会和AR的交互场景完美的匹配起来。百度利用深度神经网络和大量数据,语音识别能力在嘈杂环境和各种方言等条件下保持非常高的识别率。
人工智能技术只是为AR提供基础技术,而真正让AR落地,重塑人、信息和物理世界三者之间关系的终极目标还需要丰富的产品和应用来延伸至用户。斯坦福大学的电气工程助理教授Gordon Wetzstein说:「AR真的可以无缝地集成到日常生活之中:例如沟通、工作、信息可视化、户外游戏等等,在几乎任何你能想出的各个领域……这将从根本上改变人与人交流的方式。」
三、丰富的产品将助力百度AR迅速落地
百度在AR领域的优势除了在基础技术人工智能方面的强大储备之外,其次是还拥有搜索、地图、无人车等天然与AR产生联系的丰富的产品线。
首先,百度在搜索方面的优势毋庸置疑,而用户搜索的目的基本可以分成几类,1)获取知识;2)掌握技能,借助AR,一个医学院的学生可以直接搜到 3D 可互动的人体结构;家庭用户在搜索「如何给空气净化器更换滤芯」时,也可以借助更加直观的AR效果来解决现实生活的问题。因此,百度可以将AR效果集成到搜索中以提升用户体验。
其次,AR是用户真实世界和信息世界的叠加,真实世界就涉及用户的移动和位置,因此,地图和 LBS 服务就显得尤为重要了,这个大家从火爆的AR游戏<Pokemon Go>上就可以体会到。而百度在移动端,比如说在百度地图上,积累了海量用户及他们的数据和行为习惯,这一方面成为百度 AR上必不可少的工具,同时也提供了足够多的数据以提供更加智能的应用。从这方面来讲,百度可以将 AR 功能集成到这些产品中。
此外,百度的其他产品也将与AR结合起来,比如手机百度、百度糯米等多个用户体量过亿的产品,总之,百度在AR的应用方面还是有着充分的想象空间。
未来,人工智能和AR必将走向融合,从技术到平台,再到应用。百度基于人工智能底层技术和多种移动产品的两端优势,未来的AR布局值得期待。