lengzhao 2017-01-18
机器之心报道
1月16日,百度首席科学家吴恩达宣布,百度AR实验室正式成立。这是继百度硅谷人工智能实验室、深度学习实验室与大数据实验室之后,百度成立的第四个人工智能实验室。
百度新部门是在北京市规划展览馆举行的“百度AR复原老北京九大城门”活动中宣布的,AR实验室将由百度深度学习实验室副总监吴中勤负责。相比国外的科技巨头,百度在AR/VR领域的动作显得相对谨慎,但对于百度而言,他们有着自己的看法。“百度的AR技术研发始于两年前,我们看到一些公司开始研发AR/VR硬件设备,”吴恩达说道。“我们认为,把AR设备放进手机端才是将这种新技术带进每个人手中的最好方式。但这种做法的技术门槛较高,这就是我们直到今天才正式宣布新部门成立的原因。”
高互动性的增强现实应用需要依靠强大的图像识别技术。依靠庞大的数据支持,百度在AR技术需要的图像识别上拥有着坚实的基础。目前,百度的人工智能算法可以进行数万种Logo、细分类商品的识别(已在手机百度上得到了应用),同时在人脸识别等领域上具有优势。在北京九大城门实景触发的测试中,百度应用了自主研发的SLAM(Simultaneous Localization And Mapping),这是在百度无人驾驶汽车团队中发展起来的一项技术。SLAM技术允许计算机在未知的环境下,利用传感器(camera, laser, IMU等)信息识别设备自身姿态(包括位置和朝向),同时建立周围环境的地图的一种方式。目前,SLAM在机器人、无人驾驶汽车、无人机和AR设备上都有应用。百度研发的SLAM技术支持多种数据源,比如单目、双目、RGBD等,那么现在让我们走进百度AR的技术基础。
技术基础
吴中勤向我们介绍了整个AR的技术体系,首先第一步是要去真实地感知这个世界,所以需要有各种各样传感硬件,通过传感器的信息输入可以更好地理解场景。另外,如果想要AR技术有三维的效果,可以从上下左右多个角度各个侧面理解和观看这样一个真实和虚拟的融合。在三维这一块SLAM可以更好地计算出相机在整个环境中相对的位置变化。
另外,还有非常重要的虚实融合的技术。虚实融合技术最复杂的是要计算虚拟的部分如何适配现实环境的光线。虚拟的世界怎么样跟现实世界做到精确的匹配和融入,还有和用户的交互。未来可以通过语音识别+自然语言理解的技术,让你和这个世界以最自然的方式交互。
具体来看有三大技术,从场景到三维的感知到最后的虚实结合和智能交互。
场景理解
目前主要AR技术非常依赖的也是图像识别的技术,从图像识别来说整个互联网的大几百亿的一个图片数据,而且识别的速度非常快,它能够在非常快的速度大概小几百毫秒就可以返回在四五百亿的图片库里面进行快速检索的结果。
从细分类的物体识别上来说,我们支持几万类品牌LOGO的识别。细分类有商品的识别,细分类还包括人脸识别、手势识别和文字识别。另外从准确度来说,目前的系统因为合作的库还不是特别大,所以能很轻松地做到99%以上的准确率,我们图片识别在国际上的很多评测都是世界第一的成绩。
接下来的SLAM技术,这一套技术的特点不但是利用了简单的计算收集运动的信息,还可以通过摄像头感知。我们目前用单个摄像头可以通过视觉摄像头的办法定位相机目前的姿态、相数以及相机的位移。这个可以看到城门里面现在的一个实景,我们在跟踪的时候,可以说各项指标都是世界领先的,我们在跟踪速度上可以做到10毫秒级的快速跟踪,完全可以做离线的计算,同时还有比较强的抗干扰能力,就是对画面的遮挡,对物体部分的遮挡可以快速的响应还有快速的重定位,当摄像头移开的时候可以计算到摄像头重新定位的方位。
虚实融合
刚才讲到圣诞小鹿的例子,上面这个例子,可以看到画面当中的小车和光线是一个虚实结合的例子,我们跟一个你喜爱的偶像和吉祥物合影的时候都可以用这个技术做的非常逼真。真实世界和虚拟世界有完全不同的,真实世界会有各种环境的变化,今天就是下雪天,如果这个雪特别大,就会导致效果大打折扣,如何把虚实结合做的更加好需要研究的。
我们在3D渲染有独特的技术,3D渲染目前可以做到跨平台,体量可以做到1兆左右,这样互联网上大部分移动APP都可以集成这样一个SDK和AR服务。
用户交互
另外,识别的过程当中可以有更多交互的内容,比如说语音识别。百度的语音识别非常高的景区度,达到97%,在最近的CS上发布,在不久将来大家会在AR交互里面看到语音识别上线。另外这种交互还包括了比如说手掌的交互,手势的识别。
技术亮点:
SLAM技术:
本次实景触发测试中,采用了自主研发的SLAM(Simultaneous Localization And Mapping)技术。SLAM技术是机器人(计算机)在未知的环境下,利用传感器(camera, laser, IMU等)来估计自身的姿态 (包括位置和朝向),同时建立周围环境的地图。SLAM在无人车、无人机和AR上都有非常重要的应用。百度研发的SLAM技术可以做到低功耗、高实时性,支持多种数据源,比如单目、双目、RGBD等。
SLAM 与IMU技术的区别:
相较于手机端IMU(Inertial Measurement Unit)惯性测量单元误差较大,只适合估计手机朝向,比如横屏/竖屏,倾斜等方向,不能用来估计位置计算。SLAM不仅能估计手机三维朝向,还能估计手机的三维位置。
对于AR来讲,传统的虚实结合是在二维图像上叠加虚拟三维物体。视觉SLAM算法可以使得AR系统理解周围的三维环境,从而把虚拟的物体放到合适的位置。更进一步,虚拟物体可以与现实的三维环境发生交互,产生更有趣的交互方式。
SLAM的核心有两个部分:
第一部分是估计计算机的姿态(计算机在三维空间中的位置和朝向信息)
第二部分是建立周围环境的三维地图(稀疏或者稠密的三维点云)。
对于AR广告,SLAM可以让广告不再受限于预先制定好的海报、平面包装等。例如,用户可以在家里打开手机百度,查看一款网上的沙发和客厅是否搭配,或者可口可乐公司做一款AR广告,让运动员围绕可乐罐跑步等。
SLAM技术近期将上线到手机百度。
SLAM技术与IMU技术区别图
UDT技术:
手机百度搜索技术与AR打通技术介绍:
通过UDT(User Defined Target)用户自定义目标技术。传统基于图像跟踪的AR技术需要预先确定一张图片,用户必须有一张完全相同的图像,才能展示AR。UDT技术可以去掉这个限制,让用户随手找一张有纹理的图案即可展示AR效果(如公交卡,图书,手心、键盘等)。UDT利用多线程、GPU等加速算法,可以实时估计图像中的复杂特征信息,从而计算出空间三维位置。