自我练习大大提高了准确性。上图真正的机器人训练。下图图模拟训练。
乒乓球运动可大大助推机器人学习研究?
谷歌在最近的一篇博文中表示,机器人学习现已应用到许多真实世界任务,但将其应用于需要紧密循环的动态、高速人机交互任务还并不常见。这方面的任务可体现在乒乓球训练上。
乒乓球任务有两个互补的属性,其不仅需要速度和精度(对算法要求高),还是高度结构化的(环境固定、可预测)。
另外,执行乒乓球任务的机器人可与人和其他机器人分别对战,非常利于有关人机交互和强化学习方面的研究。因此,一些团队已经开发了乒乓球研究平台。
谷歌机器人团队同样搭建了一个类似平台,使其能够在多玩家、动态的环境中,研究机器人学习中出现的问题。
对于该方面的研究,谷歌通过两篇论文做了相关阐述,分别题为《i-Sim2Real:紧密人机交互循环中机器人策略的强化学习》(i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops)《GoalsEye:在一个物理机器人上学习高速精密乒乓球》(GoalsEye: Learning High Speed P r e c i s i o n T a b l e T e n n i s o n a Physical Robot),且都已提交到预印本网站arXiv上。
下面对谷歌的i-Sim2Real和GoalsEye两个项目分别做一简单介绍。
在i-Sim2Real(i-S2R)项目中,机器人的目标本质上是有关合作的,即最大程度与人类玩家连续游戏。
由于在现实中通过人类训练机器人既费时又费力,谷歌采用了一种基于仿真(模拟现实)的方法。但该方法较难准确模拟人类行为,尤其是在需要与人类进行紧密、闭环交互的任务上。
因此,谷歌开发出一种学习人类行为模型,专门用于人-机器人交互。最终,在与人对战中,机器人能够连续击中乒乓球三百多次。
关于学习人类行为模型,其在官网表示,该问题似乎是一个悖论。若起初缺乏优良的机器人策略,便很难获得人机交互方面的优质数据。但人类行为模型的缺失,又会得不到机器人策略。
为解决这个问题,i-S2R以一般的人类行为模型为起点,并在模拟和真实训练中不断迭代,人类行为模型和策略都逐渐得到了优化。
谷歌还通过不同的人类对手重复训练,来评估i-S2R。并将它与通常的模拟到现实(S2R,sim-to-real)+微调(FT,fine-tuning)进行比较,发现i-S2R反弹长度比S2R + FT高约9%。
i-S2R和S2R+ FT的反弹长度直方图显示,S2R+FT的反弹大部分较短(即小于5),而i-S2R实现更长的反弹更频繁。
谷歌还在博文中表示,i-S2R专注于模拟到真实学习,但有时需要仅使用真实世界的数据进行学习。在这种情况下,缩小模拟到真实的差距是不必要的。
研究人员还简单分析了模仿学习(Imitation learning,IL)和强化学习(Reinforcement Learning,RL)存在的问题。
其认为,模仿学习提供了一种简易、稳定的学习方法,但它需要获得演示,并且几乎不会超过被模仿者的表现。而在高速环境下,收集专业人员训练时的精确目标定位非常困难。
强化学习虽然十分适合这种高速、高精度任务,但它面临着一个艰难的探索问题(特别是在一 开始),并且采样效率很低下。
所以,在另外一个GoalsEye项目上,谷歌结合行为克隆技术,来塑造精确定位策略。该方法起始于一个结构薄弱的、非目标的小型数据集。其主要考虑乒乓球任务的精度。
研究人员发现,综合现有的模仿学习技术,足以在物理机器人上训练一个策略,使其像非专业人类一样准确将球击回桌子上的特定目标位置。
据了解,开始的2480次训练,机器人准确打到目标位置30cm内的概率为9%。而在策略自我尝试了约13500次后,准确率达到43%。这表明,通过实践进行示范和自我完善是任务关键。
研究人员在博文中还提到,通过乒乓球平台建立一个机器人“教练”,并根据人类参与者的技能水平调整其比赛风格,是一项值得追求的有趣研究方向。
最后,谷歌机器人团队致力于通过机器学习使机器人在现实世界中发挥作用。其正在探索让机器人了解现实世界,以预测当它们移动物体时会发生的事情,并在无监督时作出更好、更安全的决策。
据介绍,该团队研究的重点是人机交互、机器人移动性、机器人视觉、机器人操作、机器人控制、推理、敏捷性和精确性等。