hello小工 2018-04-08
译者 | 王柯凝
编辑 | 明明
出品 | AI科技大本营(公众号ID:rgznai100)
【AI科技大本营导读】在童年记忆中,你是如何沿着路线去朋友家、学校或者商店的?那时候没有地图,只是简单的记住街景和沿途转向。随着开始尝试新的越来越复杂的线路,你变得更加自信,在这个过程中,或许你会暂时迷路,但是得益于熟悉的路标或太阳朝向,又能找到正确的路线。因此,导航是一种很重要的认知任务,人类或者动物不需要地图就能够在复杂的世界中进行远距离穿越。
在没有地图的城市中学习导航时,我们提供了一个交互式导航环境 —— 使用来自 Google 街景视图的第一视角并将其环境游戏化,来训练人工智能。作为街景图像的标准,人脸和车牌比较模糊以至于无法识别。我们建立了一个基于神经网络的人工智能体,使用视觉信息(来自街景视图图像的像素)来学习在多个城市中导航。请注意,这项研究适用于一般导航而不是汽车驾驶,在这里,我们既没有使用交通信息,也没有对车辆控制建模。
图注:我们的代理导航在多种视觉环境中导航,无需访问地图
当代理导航到达目的地(如指定经纬度坐标)时,该代理导航就会获得奖励,就像一个没有地图负责无限交付的快递员一样。随着时间的推移,人工智能代理以这种方式跨越整个城市进行学习。我们还证明了,代理导航可以在多个城市进行学习,然后适应新的城市。
图注:代理导航在巴黎训练的定格影片。图像与城市地图交叠,目标位置为红色,代理导航位置和视野为绿色。 请注意,代理程序看不到地图,它只能看到目标位置的经纬度坐标。
▌无需建立地图来学习导航
与传统的依赖指定映射和探索的方法不同(如进行本地化并同时绘制地图的制图师),我们的方法是:不使用地图、GPS 定位或其他辅助工具,只使用视觉观察,像人类走路那样进行导航。我们构建了一个神经网络代理,从环境中观察到的图像作为输入,并预测在环境中应该执行的下一个操作。类似于一些学习在复杂的 3D 迷宫中进行导航以及使用无监督辅助任务进行强化学习来玩游戏的模型,我们使用深度强化学习对它进行端到端的训练。与那些小型模拟迷宫环境中的研究不同,我们利用城市中的真实数据:伦敦、巴黎和纽约市的复杂交叉路口、人行道、隧道以及各种拓扑结构。此外,我们的方法支持城市针对性的学习和优化以及通用可转移导航行为。
▌可以适用于新城市的模块化神经网络架构
代理导航内部的神经网络由三部分组成:
1)可以处理图像并提取视觉特征的卷积网络;
2)特定区域的循环神经网络,记住环境并学习“ 这里“(代理当前位置)和”那里“(目标位置)的表示;
3)基于代理导航行为产生导航策略的区域不变循环网络,特定区域模块可互换,并且如其名称所示,代理导航对于每个城市都是唯一的,而视觉模块和策略模块是区域不变的。
图注:图 (a) 为 CityNav 体系结构,图 (b) 为每个城市特定区域路径的 MultiCityNav 体系结构,图 (c) 为当代理导航适应新城市时的训练和转移过程。
就像在谷歌街景图相同的是,代理导航可以在适当的位置进行旋转,或者在可能的情况下前进到下一个全景中;与谷歌地图和街景不同的是,代理导航不会看到小箭头、本地或全球地图或著名的Pegman,而是学习区分开放道路和人行道。目标位置在真实世界中可能是很多公里,这就需要代理导航通过数百个全景图一步步的找到目的地。
我们证明了该方法可以提供一种将知识转移到新城市的机制。和人类一样,当代理导航访问新城市时,我们会期望它必须学习一组新地标,但没有必要重新学习它的视觉表现或行为(如沿着街道向前缩放或转向交叉点)。 因此,使用 MultiCity 体系结构时,我们首先在许多城市中进行训练,然后冻结( freeze )决策网络和视觉卷积网络,并在新城市中只建立一个新的特定区域路径。 这种方法使代理导航不会忘记它已经学到了什么的同时,也能够获得新的知识,这和渐进式神经网络架构比较相似。
图注:本研究中使用的五个曼哈顿区域
导航是研究和开发人工智能的基础,并试图在人工代理导航中复制导航可以帮助科学家了解其生物学基础。
原文地址:
https://deepmind.com/blog/learning-to-navigate-cities-without-a-map/