Giisozs 2019-12-26
大数据文摘出品
来源:venturebeat
编译:张秋玥
世界最大AI与机器学习会议之一的NeurlPS于本月初举行,NeurIPS 2017和NeurIPS 2018分别收到了3240和4854份研究论文,但今年的活动(于12月8日至12月14日在加拿大温哥华举行)轻松地打破了这一记录——总共收到了约6600份论文。
相比于其他AI和机器学习会议,今年的NeurlPS中最活跃的类别是机器人技术,英特尔、加州大学伯克利分校和许多机器人领域的专家参加了研讨会和论文演讲。其中最吸引人的研究当属训练机器人共同解决某一问题的新颖方法,以及通过人类视频的像素级翻译来训练机器人完成多阶段任务学习。
多阶段任务学习
伯克利大学电气工程和计算机科学系的研究人员设计了一个旨在减轻定义任务和重置环境方面人员负担的系统。他们的AVID框架通过CycleGAN将每个步骤的人工指令转换成机器人指令,该技术涉及使用来自两个无需关联的领域的图像集合来训练图像到图像的翻译模型。
在实践中,机器人一次将一项任务内部化,自动发现如何重置阶段以重试任务,无需人工干预。这使得从直观的视频任务说明再到学习过程在很大程度上是自动化的。
研究人员说,在实验中AVID已成功地学习了一些任务,例如操作咖啡机和直接从原始图像实例中取回杯子。只需要20分钟的训练,模型即可提供人类演示,而再来约180分钟的训练,机器人就能够进行与环境的互动。在一项任务中,使用真实机器人演示而非人类演示视频的行为进行的克隆表现更好。
为分摊进行特定任务训练CycleGAN模型的成本,他们安排了许多未来的研究方向,比如通过重用训练有素的CycleGAN模型来转换其他某些相关任务的演示。研究人员认为,我们可以将训练过程宽泛化,使用包含环境中多种不同的人类和机器人行为的大型数据集,从而使得模型只需几次人类演示就能学习新任务。
训练机器人进行团队合作
英特尔的研究人员试图通过名为CERL的框架(即Collaborative Evolutionry Reinforcement Learning,协作式进化强化学习)来解决机器学习中的两个长期问题,即对环境探索的不积极和对超参数的选择高度敏感(或在学习过程开始之前已设值的参数)的问题。它是一组优化算法的集合,这些算法共同提高了采样效率,并动态分配计算资源以支持表现最好的那些模型。
CERL中的学习目标分为两个同时运行的优化过程。系统构建模型“团队”整体,并评估每个团队在实际任务上的绩效。经过这些评估,表现最好的团队将会留在一起,而那些突变步骤则会将表现差强人意的团队分解并改造为新团队。
重要的是,每个模型都有一个共享的“重放缓冲区”。这实际上就是一个数据库,可以边进行探索边存储学习到的经验。CERL构建的共享缓冲区与团队位置一样多,因此团队成员可以从所有团队所有版本的经验中学习。正是这种分层次的方法使CERL能够在许多困难的基准上达到最先进的性能,包括从头开始训练3D人形模型行走。
将来,该团队计划研究在没有明确的奖励反馈的情况下涉及多任务学习的类似问题。他们还希望探讨沟通机制在解决此类任务中的作用。他们指出这其实是构筑于简单认知之上的一大类问题。
意外惊喜:冰壶机器人
机器人居然能打冰壶比赛了?高丽大学和柏林技术学院的一个团队在一篇论文中描述了一种昵称为Curly的机器,它打冰壶比真人可能都好厉害。基于AI的冰壶策略和仿真引擎的指导,该机器人通过结合了牵引力控制、摄像头和机器视觉算法来自动驱动并识别现场,以得到良好的临场表现。
正如研究人员所指出的那样,冰壶冰原传统上覆盖着卵石,卵石的状况会随着时间而变化,具体取决于温度、湿度、制冰机、维护结束后经过的时间以及比赛期间的清扫量。因此,冰壶的运动轨迹会随着时间变化。
Curly通过部署基于物理的仿真器来解决此问题。该仿真器旨在调整包括投掷角度、速度和方向的参数,直到找到最佳策略为止。机器人的投掷器组件在冰盖上执行此策略,同时握住并旋转冰壶石,随后展开抓臂,释放冰壶石。Skip组件在跟踪预测冰壶石的位置与路线同时考虑潜在的变化。
根据研究人员的说法,Curly在冰上实验中表现非常出色。具体来说这些试验包括经典游戏环境,以及在与韩国顶级业余高中团队等人类对手的互动场景。在未来的研究中,他们将使用可解释的AI技术以更好地了解关键性击球的影响,从而使机器人从错误中更好地学习。
相关报道:
https://venturebeat.com/2019/12/18/neurips-2019-featured-robotic-curling-players-and-coffee-makers/