全国销售热线:

13395113888

公海555000线路检测中心

您所在的位置:公海贵宾会线路中心手机版 > 公海555000线路检测中心 >

DeepMind提出了一种训练安全强化学习AI的新颖方法

发布时间:2020-01-15 19:34    点击次数:58次   

  强化学习代理-或通过奖励(或惩罚)逐步推动实现目标的AI-构成了自动驾驶汽车,灵巧机器人和药物发现系统的基础。但是,由于他们倾向于探索不熟悉的状态,因此他们容易受到所谓的安全探索问题的困扰,其中他们被固定在不安全的状态下(例如,移动机器人驶入沟渠)。

  这就是为什么Alphabet的DeepMind研究人员在一篇论文中研究了一种奖励建模的方法,该方法分两个阶段运行,适用于代理商不知道不安全状态可能在何处的环境。研究人员说,他们的方法不仅成功地训练了奖励模型以检测不安全状态而不访问它们,而且还可以在部署代理之前纠正奖励黑客行为(奖励规范中的漏洞),即使是在新的陌生环境中也是如此。有趣的是,他们的工作是在位于旧金山的研究公司OpenAI的Safety Gym发布之后不久的。SafetyGym是一套用于开发AI的工具,该AI在培训时尊重安全约束,并将其“安全性”与在学习中避免错误的程度进行了比较。安全体育馆同样以“约束强化学习”为目标,针对强化学习代理,该范式要求AI系统进行权衡以实现确定的结果。

  DeepMind团队的方法鼓励代理人通过两个系统生成的假设行为来探索一系列状态:初始状态的生成模型和正向动力学模型,这两个模型都接受了随机轨迹或安全专家演示等数据的训练。主管人员用奖励来标记行为,代理人以交互方式学习策略以最大化其奖励。只有在代理成功学会了预测奖励和不安全状态后,他们才被部署执行所需的任务。

  正如研究人员所指出的那样,关键思想是从头开始对假设行为进行主动综合,使它们尽可能多地提供信息,而无需与环境直接交互。DeepMind团队称其为通过轨迹优化或ReQueST奖励查询综合,并解释说它总共产生四种类型的假设行为。第一种最大化奖励模型集合的不确定性,而第二种和第三种最大化预测的奖励(为具有最高信息值的行为标记)并最小化预测的奖励(针对奖励模型可能未正确预测的表面行为)。至于行为的第四类,它使轨迹的新颖性最大化,从而无论预期的回报如何都鼓励探索。

  最后,一旦奖励模型达到令人满意的状态,便会部署基于计划的代理,该代理利用模型预测控制(MPC)来选择针对学习的奖励进行了优化的操作。与通过试验和错误学习的无模型强化学习算法不同,此MPC通过使用动力学模型来预测动作的后果,使代理能够避免不安全状态。

  该研究的合著者写道:“据我们所知,ReQueST是第一种安全地了解不安全状态的奖励建模算法,并且可以扩展到在具有高维,连续状态的环境中训练神经网络奖励模型。”“到目前为止,我们仅通过相对简单的动力学就证明了ReQueST在模拟域中的有效性。未来工作的一个方向是在3D领域中使用更逼真的物理学和在环境中起作用的其他代理来测试ReQueST。”


热门推荐