丁胜利 2017-05-16
选自Open AI
作者:JOHN SCHULMAN、JACK CLARK、OLEG KLIMOV
机器之心编译
参与:黄小天、蒋思源
近日,OpenAI 在其官方博客上宣布推出 Roboschool,一款用于机器人仿真的开源软件,它基于 Bullet 物理引擎,并已实现与 OpenAI 之前发行的 Gym 之间的整合,也使得在同一环境中同时训练多个智能体变得简单。机器之心对该文进行了编译,并在文中附上了 Roboschool 和 OpenAI Gym 的 GitHub 项目地址。官方博客地址请见文末。
我们推出了 Roboschool,一款用于机器人仿真的开源软件,已与 OpenAI Gym 相整合。
Roboschool 项目地址:https://github.com/openai/roboschool
OpenAI Gym 项目地址:https://github.com/openai/gym
Roboschool 提供了模拟控制机器人的 OpenAI Gym 新环境。这些环境中的 8 个作为 MuJoCo 预存而实现自由替换,再调试就可以生成更多的逼真动作。我们同样涵盖了若干个具有挑战性的新环境。
Roboschool 也使得在相同环境中同时训练多个智能体变得简单。
在我们推出 Gym 之后,很多用户反馈了这样一个问题,MuJoCo 组件需要一个付费的许可证(尽管 MuJoCo 最近为个人和课堂教学增加了免费的学生许可证)。Roboschool 不再有这一限制,使得每个人皆可进行研究而无需担心预算。Roboschool 基于 Bullet Physics Engine(一个开源、受到广泛许可的物理库),该库已用于其他仿真软件,比如 Gazebo 和 V-REP。
环境
Roboschool 搭载有 12 个环境,其中有 Mujoco 用户熟悉的任务以及新挑战,比如类人步行者任务(the Humanoid walker task)的更难版本,多玩家 Pong 环境。我们计划不断扩展这一集合,并期待来自更多研究社区的贡献。
对于现有的 MuJoCo 环境,除了将其移植到 Bullet 之外,我们已经将其修改得更逼真。以下是我们移植的 3 个环境,并解释它们与其它已有环境的不同之处。
在 GitHub 库 agent_zoo 文件夹中你可以找到所有环境的训练策略。你同样也可以访问 demo_race 脚本来启动 3 个机器人之间的竞争。
交互和稳健的控制
在 OpenAI Gym 之前的若干个环境中,其目标是学习一个步行控制器。然而,这些环境包含了问题的一个基本版本,即目标设为简单地前进。实际上,行走策略将学习一个单循环轨迹,并留下大部分状态空间。进而,最后的策略将倾向于非常脆弱:很小的一个推动常常导致机器人崩溃并摔倒。
我们已添加了另外两个 3D 类人环境,这使得运动问题更加有趣、更具挑战性。这些环境需要交互式控制——机器人必须跑向旗帜,在这一过程中其姿态会随机变化。