AI杀入斗地主领域,快手开发DouZero对标AlphaZero,干掉344个AI获第一

news/2024/7/3 2:21:35

点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

来源丨量子位

编辑丨极市平台

导读

 

快手团队开发的斗地主AI命名为DouZero,意思是像AlphaZero一样从零开始训练,不需要加入任何人类知识。只用4个GPU,短短几天的训练时间,就在Botzone排行榜上的344个斗地主AI中排名第一。 

AlphaGo在围棋界大杀四方时就有人不服:有本事让AI斗地主试试?

试试就试试。

快手团队开发的斗地主AI命名为DouZero,意思是像AlphaZero一样从零开始训练,不需要加入任何人类知识。

只用4个GPU,短短几天的训练时间,就在Botzone排行榜上的344个斗地主AI中排名第一。

而且还有在线试玩(链接在文章最后),手机也能运行。

在线试玩中演示的是三人斗地主,玩家可以选择扮演地主、地主的上家或下家。

选择当地主来玩玩看,可以打开显示AI手牌功能,更容易观察AI决策过程。另外可以设置AI考虑时间,默认是3秒。

在AI的回合,会显示面临的决策和每种打法的预测胜率。

有时可以看到AI并不是简单的选择当前胜率最高的打法,而是有更全局的考虑。

斗地主对AI来说,很难

从博弈论的角度看,斗地主是“不完全信息博弈”。

围棋是所有棋子都摆在棋盘上,对弈双方都能看到的完全信息博弈。

而斗地主每个玩家都看不到其他人的手牌,对于AI来说更有挑战性。

在棋牌类游戏中,虽然斗地主的信息集的大小和数量不如麻将,但行动空间有10^4,与德州扑克相当,而大多数强化学习模型只能处理很小的行动空间。

斗地主的所有牌型总共有27472种可能。

像下图的手牌就有391种打法。

且斗地主的行动不容易被抽象化,使搜索的计算成本很高,像Deep Q-Learning和A3C等强化学习模型都只有不到20%的胜率。

另外作为不对称游戏,几个农民要在沟通手段有限的情况下合作并与地主对抗。

像扑克游戏中最流行的“反事实后悔最小化”(Counterfactual Regret Minimization)算法,就不擅长对这种竞争和合作建模。

全局、农民和地主网络并行学习

首先将手牌状态编码成4x15的独热(one-hot)矩阵,也就是15种牌每种最多能拿到4张。

DouZero是在Deep Q-Learning的基础上进行改进。

使用LSTM(长短期记忆神经网络)编码历史出牌,独热矩阵编码预测的牌局和当前手牌,最终用6层,隐藏层维度为512的MLP(多层感知机)算出Q值,得出打法。

除了“学习者”全局网络以外,还用3个“角色”网络分别作为地主、地主的上家和下家进行并行学习。全局和本地网络之间通过共享缓冲区定期通信。

△学习者和角色的算法

DouZero在48个内核和4个1080Ti的一台服务器上训练10天击败了之前的冠军,成为最强斗地主AI。

下一步,加强AI间的协作

对于之后的工作,DouZero团队提出了几个方向:

一是尝试用ResNet等CNN网络来代替LSTM。

以及在强化学习中尝试Off-Policy学习,将目标策略和行为策略分开以提高训练效率。

最后还要明确的对农民间合作进行建模。好家伙,以后AI也会给队友倒卡布奇诺了。

柯洁在围棋被AlphaGO击败以后,2019年参加了斗地主锦标赛获得了冠军。

不知道会不会有AI“追杀”过来继续挑战他。

在线试玩:
https://www.douzero.org

GitHub项目地址:
https://github.com/kwai/DouZero

论文地址:
https://arxiv.org/pdf/2106.06135.pdf

参考链接:
[1]https://www.sohu.com/a/285835432_498635

如果觉得有用,就请分享到朋友圈吧!

点个在看 paper不断!


http://lihuaxi.xjx100.cn/news/268350.html

相关文章

计算机网络实验二交换机配置Cisco,思科实验1计算机和交换机的ip地址设置

实验1计算机与交换机IP地址设置1. 双击HostA, 输入用户名和入口令,键入"?"可以求得帮助。PCA login:rootPassword:linux设置 IP :[root#PCA root]# ifconfig eth0 10.65.1.1 netmask 255.255.0.0查看 IP :[r…

TensorFlow、PyTorch夹缝之下:后浪的进击和野望

作者 | Just出品 | AI科技大本营(rgznai100)“我发现,软件研发总会延期。”一流科技CEO袁进辉说。按照他的预期,深度学习框架OneFlow做两年就能开源给开发者检验,但时间向后延长了近一年半,“确实预计的不准…

使用C#的HttpWebRequest模拟登陆网站

很久没有写新的东西了,今天在工作中遇到的一个问题,感觉很有用,有种想记下来的冲动。 这篇文章是有关模拟登录网站方面的。 实现步骤; 启用一个web会话发送模拟数据请求(POST或者GET)获取会话的CooKie 并根…

编解码概念

H.264 H.265 MJPEG :视频编解码规范分析fps(frame per second) : 帧率

Linux内核及发行版

Linux内核及发行版 1. Linux内核 Linux内核是操作系统内部操作和控制硬件设备的核心程序,它是由芬兰人林纳斯开发的。【git也是他发明的】 内核效果图: 【内核在操作系统里面】 说明: 真正操作和控制硬件是由内核来完成的,操作系统是基于内核开发出来…

一步步构建大型网站架构

之前我简单向大家介绍了各个知名大型网站的架构,MySpace的五个里程碑、Flickr的架构、YouTube的架构、PlentyOfFish的架构、WikiPedia的架构。这几个都很典型,我们可以从中获取很多有关网站架构方面的知识,看了之后你会发现你原来的想法很可能…

计算机视觉分析:传统视觉VS深度学习

近日,来自麻省理工学院、加州大学伯克利分校、伊利诺伊大学香槟分校、华盛顿大学、帝国理工学院的六名顶级人工智能科学家、计算机视觉科学家在 ICCV 大会期间进行了题为「A discussion about deep learning vs classical methods and their roles in computer visi…

这个假发太逼真!GAN 帮你换发型,alignment 步骤去掉生硬感

点击上方“视学算法”,选择加"星标"或“置顶”重磅干货,第一时间送达转自 | 新智元来源 | GitHub编辑 | 小匀Tony老师不能给你的,GAN给你!这个名为Barbershop的技术能帮你尝试不同的发型和发色。重点是:新发…