通过评估假设行为来学习人类目标

来源| deepmind

编译| 武明利，责编| Carol

出品 | AI科技大本营（ID：rgznai100）

当我们在现实世界中训练强化学习（RL）代理时，我们不会希望它们探索不安全的状态，例如将一个移动机器人开进沟里，或者向老板发送一封很尴尬的电子邮件。

在不安全状态下训练RL代理被称为安全探索问题。我们解决了这个问题中最难的部分，即代理最初不知道环境如何工作的，也不知道不安全状态在哪里。该代理有一个信息源：来自人类用户对不安全状态的反馈。

现有的人类反馈训练代理的方法要求用户评估代理在环境中的行为数据。也就是说，为了了解不安全状态，代理首先需要访问这些状态，以便用户可以对它们提供有关反馈。这使得之前的工作不适用于需要安全探索的任务。

在我们最新的论文中，我们提出了一种分为两个阶段的奖励建模方法。首先，鼓励系统通过综合产生的假设行为探索广泛的状态。用户提供有关此假设行为的反馈，并且系统以交互方式学习用户奖励功能的模型。只有在模型成功学会了预测奖励和不安全状态后，我们才部署可安全执行所需任务的RL代理。

我们从一个初始状态的生成模型和一个前向动态模型入手，这些模型是根据非政策数据（例如随机轨迹或安全的专业演示）进行训练的。我们的方法使用这些模型来合成假设的行为，要求用户用奖励标记这些行为，并训练神经网络来预测这些奖励。关键思想是从零开始积极地合成假设的行为，使它们尽可能多地提供信息，而无需与环境互动。我们称这种方法为通过轨迹优化（ReQueST）进行奖励查询合成。

ReQueST：在不安全状态的情况下，我们根据用户的目标安全地通知代理商行为的方法：

（1）使用动态模型

（2）它交互地从用户反馈的假设行为中获得奖励模型

（3）然后部署基于模型的RL代理商，以优化所获得的奖励。

使用轨迹优化合成信息假设

对于这种工作方法，我们需要系统来模拟和探索各种行为，以便有效地训练奖励模型。为了鼓励在奖励模型训练过程中进行探索，ReQueST使用梯度下降轨迹优化来合成四种不同类型的假设行为。

第一种假设行为使奖励模型集合的不确定性最大化，从而引发了具有最高信息价值行为的用户标签。

第二种假设行为使预测的奖励最大化，从而出现奖励模型可能错误预测高奖励的行为。即奖励黑客。

第三种假设行为将预测的奖励降到最低，从而将潜在的不安全假设行为添加到训练数据中。该数据使奖励模型能够了解不安全状态。

第四种假设行为最大程度地提高了轨迹的新颖性，并鼓励人们探索各种状态，而不考虑预期的回报。

使用监督学习训练奖励模型

每个假设行为都由一系列状态转换（s,a,s’）组成。我们要求用户用奖励r来标记每个状态转换。然后，给定带标签的转变数据集（s,a,r,s’），我们训练神经网络使用最大似然目标预测回报。我们使用基于梯度下降的标准监督学习技术。

部署基于模型的RL代理

一旦用户对奖励模型感到满意，我们将部署一个基于计划的代理，该代理使用模型预测控制（MPC）来选择可优化学习奖励的操作。与通过试错法学习的无模型RL算法（如Q学习或策略梯度方法）不同，基于模型的RL算法（如MPC）使代理能够通过使用动态模型来预测其行为后果，从而避免部署期间的不安全状态。

实验评估

我们在基于状态的2D导航任务和基于图像的赛车视频游戏上与模拟用户一起评估ReQueST。结果表明，ReQueST满足三个重要的安全特性：（1）它可以训练奖励模型来检测不安全状态而无需访问它们；（2）它可以在部署代理之前纠正奖励黑客行为；（3）它倾向于学习强大的奖励模型，这些模型在转移到新环境中时表现良好。

在玩具2D导航任务中测试一般性

为了测试奖励模型的一般性，我们设置了具有单独训练和测试环境的2D导航任务。

在2D导航环境中，代理商必须避开陷阱区域（红色），然后到达目标区域（绿色）。

我们特意在初始状态分布中引入了一个重要变化：代理在训练环境中从左下角（0，0）开始，在测试环境中从右上角（1，1）开始。以前通过在训练环境中部署代理来收集数据的方法不太可能了解右上角的陷阱，因为它们会立即找到目标，然后无法继续探索。

ReQueST综合了各种假设状态，包括陷阱内和周围的状态。用户将这些状态标记为奖励，使用哪个ReQueST学习一个健壮的奖励模型，该模型使代理能够在测试环境中绕过陷阱。

ReQueST学习一种奖励模型，该模型可准确捕获目标区域和陷阱区域的边界。以前的工作采用的其他方法不了解陷阱区域，并且不正确地推断目标区域。

ReQueST（蓝色）产生的代理要比在先工作（茶和橙）适应的基准要重要得多。特别是，ReQueST学习一种奖励模型，该模型可以检测到不安全的状态，足以使代理商完全避免使用它们（0％的崩溃率）。

在基于图像的赛车中测试可伸缩性

为了测试ReQueST是否可扩展到具有高维、连续状态（如图像）的域，我们使用了OpenAI Gym的Car赛车视频游戏。

在赛车环境中，代理商必须尽可能避免在许多道路上打补丁

ReQueST综合以下假设行为：

（1）最大化奖励不确定性；

（2）最大化预期奖励；

（3）最小化预期奖励；

（4）最大化新奇。

这些视频显示了使用VAE图像解码器和LSTM动态模型从完整交易的奖励模型合成的假设。不确定性最大化的行为表明汽车行驶到道路的边缘并减速。奖励最大化的行为向人们展示了汽车向下行驶并转弯的过程。奖励最小的行为表明汽车尽可能快地越野。最大限度地提高创新行为表现了汽车保持静止状态。

ReQueST（蓝色）产生的代理可以驱动新的道路补丁，并且比以前的工作（茶和橙）所采用的方法明显更好。

除了对照以前的方法对ReQueST进行基准测试外，我们还进行了超参数扫描和消融研究，在该过程中，我们在轨迹优化过程中改变了动态模型的正则化强度以及合成的假设子集，以测量ReQueST对这些设置的敏感性。我们发现，ReQueST可以在生成现实查询和信息查询之间进行权衡，并且最佳权衡在各个域之间都不同。我们还发现，四种假设行为中每一种的有用性都取决于领域和收集的训练数据的数量。