通过评估假设行为来学习人类目标

news/2024/7/6 0:37:02

来源| deepmind

编译| 武明利,责编| Carol

出品 | AI科技大本营(ID:rgznai100)

当我们在现实世界中训练强化学习(RL)代理时,我们不会希望它们探索不安全的状态,例如将一个移动机器人开进沟里,或者向老板发送一封很尴尬的电子邮件。

在不安全状态下训练RL代理被称为安全探索问题。我们解决了这个问题中最难的部分,即代理最初不知道环境如何工作的,也不知道不安全状态在哪里。该代理有一个信息源:来自人类用户对不安全状态的反馈。

现有的人类反馈训练代理的方法要求用户评估代理在环境中的行为数据。也就是说,为了了解不安全状态,代理首先需要访问这些状态,以便用户可以对它们提供有关反馈。这使得之前的工作不适用于需要安全探索的任务。

在我们最新的论文中,我们提出了一种分为两个阶段的奖励建模方法。首先,鼓励系统通过综合产生的假设行为探索广泛的状态。用户提供有关此假设行为的反馈,并且系统以交互方式学习用户奖励功能的模型。只有在模型成功学会了预测奖励和不安全状态后,我们才部署可安全执行所需任务的RL代理。

我们从一个初始状态的生成模型和一个前向动态模型入手,这些模型是根据非政策数据(例如随机轨迹或安全的专业演示)进行训练的。我们的方法使用这些模型来合成假设的行为,要求用户用奖励标记这些行为,并训练神经网络来预测这些奖励。关键思想是从零开始积极地合成假设的行为,使它们尽可能多地提供信息,而无需与环境互动。我们称这种方法为通过轨迹优化(ReQueST)进行奖励查询合成。

ReQueST:在不安全状态的情况下,我们根据用户的目标安全地通知代理商行为的方法:

(1)使用动态模型

(2)它交互地从用户反馈的假设行为中获得奖励模型

(3)然后部署基于模型的RL代理商,以优化所获得的奖励。

使用轨迹优化合成信息假设

对于这种工作方法,我们需要系统来模拟和探索各种行为,以便有效地训练奖励模型。 为了鼓励在奖励模型训练过程中进行探索,ReQueST使用梯度下降轨迹优化来合成四种不同类型的假设行为。

第一种假设行为使奖励模型集合的不确定性最大化,从而引发了具有最高信息价值行为的用户标签。

第二种假设行为使预测的奖励最大化,从而出现奖励模型可能错误预测高奖励的行为。即奖励黑客。

第三种假设行为将预测的奖励降到最低,从而将潜在的不安全假设行为添加到训练数据中。该数据使奖励模型能够了解不安全状态。

第四种假设行为最大程度地提高了轨迹的新颖性,并鼓励人们探索各种状态,而不考虑预期的回报。

使用监督学习训练奖励模型

每个假设行为都由一系列状态转换(s,a,s’)组成。我们要求用户用奖励r来标记每个状态转换。然后,给定带标签的转变数据集(s,a,r,s’),我们训练神经网络使用最大似然目标预测回报。我们使用基于梯度下降的标准监督学习技术。

部署基于模型的RL代理

一旦用户对奖励模型感到满意,我们将部署一个基于计划的代理,该代理使用模型预测控制(MPC)来选择可优化学习奖励的操作。与通过试错法学习的无模型RL算法(如Q学习或策略梯度方法)不同,基于模型的RL算法(如MPC)使代理能够通过使用动态模型来预测其行为后果,从而避免部署期间的不安全状态。

实验评估

我们在基于状态的2D导航任务和基于图像的赛车视频游戏上与模拟用户一起评估ReQueST。结果表明,ReQueST满足三个重要的安全特性:(1)它可以训练奖励模型来检测不安全状态而无需访问它们;(2)它可以在部署代理之前纠正奖励黑客行为;(3)它倾向于学习强大的奖励模型,这些模型在转移到新环境中时表现良好。

在玩具2D导航任务中测试一般性

为了测试奖励模型的一般性,我们设置了具有单独训练和测试环境的2D导航任务。

在2D导航环境中,代理商必须避开陷阱区域(红色),然后到达目标区域(绿色)。

 

我们特意在初始状态分布中引入了一个重要变化:代理在训练环境中从左下角(0,0)开始,在测试环境中从右上角(1,1)开始。以前通过在训练环境中部署代理来收集数据的方法不太可能了解右上角的陷阱,因为它们会立即找到目标,然后无法继续探索。

ReQueST综合了各种假设状态,包括陷阱内和周围的状态。用户将这些状态标记为奖励,使用哪个ReQueST学习一个健壮的奖励模型,该模型使代理能够在测试环境中绕过陷阱。

ReQueST学习一种奖励模型,该模型可准确捕获目标区域和陷阱区域的边界。以前的工作采用的其他方法不了解陷阱区域,并且不正确地推断目标区域。

ReQueST(蓝色)产生的代理要比在先工作(茶和橙)适应的基准要重要得多。特别是,ReQueST学习一种奖励模型,该模型可以检测到不安全的状态,足以使代理商完全避免使用它们(0%的崩溃率)。

在基于图像的赛车中测试可伸缩性

为了测试ReQueST是否可扩展到具有高维、连续状态(如图像)的域,我们使用了OpenAI Gym的Car赛车视频游戏。

在赛车环境中,代理商必须尽可能避免在许多道路上打补丁

ReQueST综合以下假设行为:

(1)最大化奖励不确定性;

(2)最大化预期奖励;

(3)最小化预期奖励;

(4)最大化新奇。

这些视频显示了使用VAE图像解码器和LSTM动态模型从完整交易的奖励模型合成的假设。不确定性最大化的行为表明汽车行驶到道路的边缘并减速。奖励最大化的行为向人们展示了汽车向下行驶并转弯的过程。奖励最小的行为表明汽车尽可能快地越野。最大限度地提高创新行为表现了汽车保持静止状态。

ReQueST(蓝色)产生的代理可以驱动新的道路补丁,并且比以前的工作(茶和橙)所采用的方法明显更好。

 

除了对照以前的方法对ReQueST进行基准测试外,我们还进行了超参数扫描和消融研究,在该过程中,我们在轨迹优化过程中改变了动态模型的正则化强度以及合成的假设子集,以测量ReQueST对这些设置的敏感性。我们发现,ReQueST可以在生成现实查询和信息查询之间进行权衡,并且最佳权衡在各个域之间都不同。我们还发现,四种假设行为中每一种的有用性都取决于领域和收集的训练数据的数量。

下一步做什么?

据我们所知,ReQueST是第一个奖励建模算法,可以安全地学习不安全状态和在具有高维、连续状态的环境中训练神经网络奖励模型。

ReQueST依赖于初始状态的生成模型和正向动态模型,对于具有复杂动态的视觉域,这可能很难获得。到目前为止,作者只证明了ReQueST在相对简单的动态模拟域中的有效性。未来工作的一个方向是在3D领域中使用更逼真的物理学和其他在环境中起作用的代理来测试ReQueST。

原文:

https://deepmind.com/blog/article/learning-human-objectives-by-evaluating-hypothetical-behaviours

(*本文由 AI 科技大本营编译,转载请联系微信1092722531)

【end】

精彩推荐

「中国远程办公调查问卷」来啦!精选的技术书籍等你来拿!

长按图片参与有奖调查,提交后卷末尾抽奖页面的进群规则,即可加入交流群!!每天第6名和第8名入群者即为中奖者!

点击阅读原文或者识别海报二维码填写问卷!

推荐阅读

  • 远程办公是巨头游戏?十倍扩容,他们如何做到百万级并发流量

  • “夸夸机器人”App来了:变身百万粉丝大V,48万人给你的帖子点赞

  • AI口罩“督查官”诞生记

  • 从Kubernetes安全地访问AWS服务,告诉你多云场景下如何管理云凭据!

  • 华为最新 5G 折叠机 MateXs 发布,起售价 19000 多元

  • 游戏之道

  • 你点的每个“在看”,我都认真当成了AI


http://lihuaxi.xjx100.cn/news/272850.html

相关文章

如何保证工业相机工作的精准与稳定?

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达无论是在图像测量或者机器视觉应用中,相机参数的标定都是非常关键的环节,其标定结果的精度及算法的稳定性直接影响相机工作产生结果的准确与稳定。…

[c#基础]ICloneable接口

摘要 该接口使你能够创建现有对象的副本的自定义的实现。该接口只提供了,一个Clone方法,实现对象的浅拷贝。有浅拷贝,那么就有相对应的深拷贝。但该接口并没有对我们提供,需要我们自己实现。 什么是浅拷贝与深拷贝? 浅…

纯css3代码写下拉菜单效果

1 <!DOCTYPE html>2 <html lang"en">3 <head>4 <meta charset"UTF-8">5 <meta name"viewport" content"widthdevice-width,initial-scale1;user-scaleno">6 <title>CSS3树形菜单</title…

4招教你零基础入门Python

随着近几年Python的飞速发展&#xff0c;应用范围逐步趋于广泛&#xff0c;后端开发、前端开发、爬虫、金融量化分析、人工智能、自动化运维、自动化运维、大数据&#xff0c;Python都有涉及。Python相对其他编程语言来讲&#xff0c;语法较简单&#xff0c;就算没有任何编程基…

SQL查找是否存在,别再count了,很耗费时间的

点击上方“方志朋”&#xff0c;选择“设为星标”回复”666“获取新整理的面试文章来源&#xff1a;http://suo.im/5T1tGv根据某一条件从数据库表中查询 『有』与『没有』&#xff0c;只有两种状态&#xff0c;那为什么在写SQL的时候&#xff0c;还要SELECT count(*) 呢&#x…

机械键盘写代码嗖嗖嗖!免费包邮送到家

写代码如果用机械键盘是件很爽的事情&#xff0c;敲代码Bug多不多不重要&#xff0c;逼格必须先到位&#xff01;所以&#xff0c;小编联合9位公众号主给大家送一款全新的RX-78-2高达有线办公键盘游戏樱桃轴机械键盘红轴。写代码逼格高&#xff01;赠送规则本次活动联合了9个号…

读《杜拉拉升职记》有感

读杜拉拉升职记有感1.一定要在核心部门任职&#xff0c;防止被边缘化2.劳心者治人&#xff0c;劳力者治于人干了活还受气怎么办&#xff1f;1.把每一个阶段的主要任务和安排的都做成清晰简明的表格&#xff0c;发给我的老板&#xff0c;告诉他如果有反对意见&#xff0c;在某某…

《评人工智能如何走向新阶段》后记(再续17)

由AI科技大本营下载自视觉中国258.2月15日阿里巴巴达摩院研发AI诊断技术 阿里达摩院联合阿里云研发一套全新的AI诊断技术&#xff0c;可在20秒内对新冠肺炎疑似病例CT影像做出分析判断&#xff0c;识别准确率达96%。 有了AI加持&#xff0c;通过NLP自然语言处理回顾性数据&…