xiangzcsdn 2019-10-23
对一堆颜色不同的玩具卡车和可动人偶进行分类似乎像是在玩耍,对吧?不幸的是,这在机器学习领域仍然是一项艰巨的任务。那么,为什么不让人们简单地向机器展示如何做到这一点呢?
这是由斯坦福大学人工智能实验室主任李飞飞和她的丈夫斯坦福大学副教授Silvio Savarese领导的新研究项目背后的灵感。该项目引入了两个新的全球平台,即RoboTurk和Surreal,旨在提供高质量的任务演示数据,以帮助从事机器人操纵工作的研究人员。
RoboTurk是一个众包平台,正在收集人类对“拣选”和“装配”等任务的演示。而Surreal是开放源代码的强化学习框架,可加快机器的学习过程。
研究表明人类如何控制机器人模拟器
“人类教学机器人”概念本身并不是一个新概念。模仿学习的最新进展证明了在机器人操纵任务中应用的可能性。去年,OpenAI创建了一个机器人系统,该系统可以从虚拟现实环境中的单个人类演示中学习行为和动作,然后在现实世界中进行复制。与此同时,伯克利人工智能研究(BAIR)展示了观看视频的一击模仿,这是一种训练过程,使机器人能够从人类示例视频中学习技能,并将其学到的知识与以前对目标物体的理解相结合。
OpenAI robotics system
然而,收集相关的高质量人类演示数据仍然是一个挑战。 BAIR研究人员指出:“基于视觉的技能的模仿学习通常需要大量演示技能的专家。”较早的BAIR研究表明,从虚拟现实远程操作中对复杂操作任务进行深度模仿学习可以有效地训练机器人,以达到最佳的视觉效果。使用原始像素输入来达到单个固定对象的范围可能需要多达200次人类演示。
Li的团队创建了RoboTurk作为众包平台,以获取高质量的人类演示。用户可以通过智能手机或浏览器轻松访问RoboTurk,并通过即时反馈实时地远程控制机器人仿真。这种新颖的可访问性功能旨在扩大全球用户群体。在系统的22小时试运行测试期间,在以下两个任务上收集了超过2,220个成功的演示:拾箱和螺母和钉子装配。此外,该测试还证明了即使在地球的另一侧,用户也可以在加利福尼亚州的斯坦福实验室有效控制机器人的仿真。
研究员Animesh Garg从瑞士阿尔卑斯山顶控制RoboTurk
该项目背后的第二个重要框架是Surreal:具有可重现性的可扩展的开源分布式强化学习框架。为了确保Surreal提供持续的控制,Li和她的团队使用了PPO(近端策略优化)和DPG(确定性策略梯度)算法,它们是分布式强化学习算法的高度可扩展的实现。
超现实世界中有四个分布式组件:参与者,缓冲区,学习者和参数服务器。演员负责产生经验,而缓冲区负责存储经验。同时,学习会在参数服务器存储参数之前从Experience更新参数。这样就消除了对全局同步的需求,同时将数据生成和学习的分离提高了可伸缩性。
更重要的是,Surreal为策略内和策略外强化学习算法提供了全面的支持。四层计算基础架构可确保轻松实施RL实验。开发人员可以在任何商业云提供商或个人计算机上部署Surreal系统。
斯坦福大学的研究启发了AI社区中的一些人,将RoboTurk描述为机器人的ImageNet。 RoboTurk和Surreal都将高质量数据集集成到高级强化学习中。 希望将来这些平台能够收集有关各种任务的数据。 另外,可以扩展平台以帮助真正的机器人手臂进行远程遥控操作。 该研究小组还认为,可以开发出更复杂的算法来利用更大的数据集进行策略学习。
毫无疑问,RoboTurk和Surreal可能会成为可重复性研究的重要集成平台。
本文编译自 | medium.com
作者 | Fangyu Cai | 编辑 | Michael Sarazen 译者 | Yafei
转载请联系后台获得申请,否则将按照对应平台的规则投诉处理。