从Deepmind最新成果DreamerV3启发的通用AI技术分析

news/2024/7/3 2:39:11

一、背景

本文系个人观点:错漏在所难免,仅供参考

北京时间 1 月 12 日,DeepMind 官方推特发文,正式官宣 DreamerV3,这是首个能在游戏「我的世界」(Minecraft) 中不参考人类数据,就能从头开始收集钻石的通用算法,解决了 AI 领域中的又一重要挑战。英伟达 AI 科学家 Jim Fan 表示,和 AlphaGo 下围棋比,我的世界任务数量是无限的,环境变化是无限的,知识也是有隐藏信息的。
早在 2019 年夏天,Minecraft的开发公司就提出了「钻石挑战」,悬赏可以在游戏里找钻石的 AI 算法,直到 NeurIPS 2019 上,在提交的 660 多份参赛作品中,没有一个 AI 能胜任这项任务。
但 DreamerV3 的出现改变了这一现状,钻石是一项高度组合和长期的任务,需要复杂的探索和规划,新算法能在没有任何人工数据辅助的情况下收集钻石。或许效率还有很大改进空间,但 AI 智能体现在可以从头开始学习收集钻石这一事实本身,是一个重要的里程碑。
参考:
DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

DreamerV3 由 3 个从回放经验 (replayed experience) 中同时训练,且不共享梯度的神经网络组成:
1、world model:预测潜在动作的未来结果
2、critic:判断每种情况的 value
3、actor:学习如何使有价值的情况成为可能
在这里插入图片描述
从之前下围棋的Alphazero到现在Minecraft中挖钻石的DreamerV3,其技术发展脉络是怎样的?相互之间是什么联系呢?

二、通用AI的本质

从下围棋的Alphazero到现在Minecraft中挖钻石的DreamerV3,个人认为本质都是相同的,都遵循Yang lecun的通用世界AI模型。
在这里插入图片描述

其核心包括World model,Critic,Actor三部分。
DreamerV3向这个通用世界AI模型的映射很自然。因为它的核心就包括了world model,Critic,Actor三部分。
Alphazero是否也和这个通用世界AI模型一致,如果一致,那么它的模型怎么向这个通用世界AI模型映射呢?

三、Alphazero和通用AI的关系

如图所示。
Alphazero和通用世界AI模型的关系主要包括两点:

  1. 在Alphazero中,世界模型相当于围棋棋盘、棋子、行棋规则的表示。
  2. 在alphazero中Critic加入了蒙特卡洛树MCT的评分,使得Critic的评分向蒙特卡洛树MCT不断靠拢,加速了Critic网络的收敛。
    在这里插入图片描述

四、未来通用AI的思考

通用AI核心包括World model,Critic,Actor三部分。其要点包括:

  1. World model需要考虑场景的高层抽象编码表示;高层抽象编码在训练过程中会和场景高度依赖,但它是通过训练自动生成的抽象编码,并不需要人工干预。结合Short-term memory可形成历史记录;
  2. critic需要结合特定场景融入特定经验(比如,对弈领域的MCT,XX领域的XXX),可加速Critic网络收敛时间。

整体来看框架是通用的,但其训练结果是面向特定领域的,依赖reward的奖励,训练好的模型其world model、critic网络都是由reward决定的。
在这里插入图片描述


http://lihuaxi.xjx100.cn/news/663709.html

相关文章

智慧水务能效管理平台在污水处理厂电气节能中的应用

摘要:污水处理属于高能耗行业,会消耗大量的电能、燃料和药剂等,高能耗不仅会提升污水处理成本,还会加剧能源危机。所以,本文首先探究了污水处理厂耗能的原因,分析了污水处理与节能降耗的关系,然…

Cookie的相关操作

1. Cookie处理 Cookie定义:是储存在用户本地终端上的数据,实际上是一小段的文本信息。 1. Cookie作用 帮助 Web 站点保存有关访问者的信息,方便用户的访问。如记住用户名密码实现自动登录。 案例:查看访问我要自学网时的Cookie内容 # Webdriver中操作cookie的方法包括: # g…

GraphQL(二)- Schema 和 Resolver

在GraphQL中,Schema和Resolver是两个非常重要的概念,是编写GraphQL Server的2个基本单元 本文介绍GraphQL中的Schema和Resolver。 Schema Schema定义了GraphQL中基于graph的数据格式 参考: https://graphql.org/learn/schema/ Type语言 GraphQL 服务可以用任何语言编写。由于…

2022.12 青少年机器人技术等级考试理论综合试卷(三级)

2022年12月 青少年机器人技术等级考试理论综合试卷(三级) 分数: 100 题数: 30 一、 单选题(共 20 题, 共 80 分) 1.舵机接到 Arduino UNO/Nano 主控板的 2 号引脚, 下列选项中, 实现舵机在 0 度…

mysql快速生成100W条测试数据(8)全球各城市人口及经济增长速度并存入mysql数据库

这是之前的文章里面包含一些以前的一些操作流程可以进行参考学习 更加详细操作步骤在第一篇文章里面 mysql快速生成100W条测试数据(1):游戏人物数据 mysql快速生成100W条测试数据(2)公司员工信息 mysql快速生成100W条测…

实时即未来,大数据项目车联网之Flink Watermark(水位线)【十四】

文章目录 1 Flink Watermark(水位线)1 事件时间(event time)2 Flink Window Assigners(窗口分配器)2.1 Tumbling Windows(翻滚窗口)2.2 Sliding Windows(滑动窗口)2.3 Session Windows(会话窗口)2.4 Global Windows(全局窗口)2.5 窗口函数(Window Function)1 Fli…

【C语言】自定义类型

前言男孩子在外面要保护好自己~一、结构体为什么会有结构体呢&#xff1f;但要描述一个复杂对象时&#xff0c;仅用之前学过的基本数据类型表达不了&#xff08;如&#xff1a;我要描述一个人&#xff0c;仅靠基本数据类型只能说定义他的一种属性<如用 int 定义他的年龄>…

【C++】stack和queue的使用

文章目录Stackstack容器的定义方式:接口函数queuequeue容器的定义方式接口函数栈OJ题目最小栈栈的压入,弹出序列逆波兰表达式求值(后缀表达式)中缀表达式->后缀表达式用两个栈实现队列队列OJ题用队列实现栈使用两个队列实现栈使用一个队列实现栈二叉树的层序遍历I二叉树的层…