学习深度强化学习---第3部分----RL蒙特卡罗相关算法

news/2024/7/1 7:24:51

文章目录

    • 3.1节 蒙特卡罗法简介
    • 3.2节 蒙特卡罗策略评估
    • 3.3节 蒙特卡罗强化学习
    • 3.4节 异策略蒙特卡罗法

本部分视频所在地址:深度强化学习的理论与实践

3.1节 蒙特卡罗法简介

在其他学科中的蒙特卡罗法是一种抽样的方法。
如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。
在这里插入图片描述
在这里插入图片描述
无偏估计量的理解参考:什么叫估计量的无偏性?一致性?有效性?、也可以参考下图(链接不好找,直接截图了):在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2节 蒙特卡罗策略评估

法1:ML拟合模拟数据法:本节不讲应用机器学习算法学习一个转移概率(这种方法是模拟出大量的数据,即下图中列出来的数据,然后使用一些ML如监督学习的方法来学习出P_head(s'|s,a)
法2:免模型强化学习法(即蒙特卡罗方法)
在这里插入图片描述
一个经历完整的MDP序列称为一次采样

3.3节 蒙特卡罗强化学习

3.4节 异策略蒙特卡罗法


http://lihuaxi.xjx100.cn/news/1888547.html

相关文章

【影像组学入门百问】#12----#21

#12-什么是rad-score,怎么计算? 很多朋友问起这个概念,也跟一些朋友讨论过,自己也查过文献,没有找到原始文献,不知道确切概念是什么。 但根据文献内容看,rad-score一般认为是任何线性模型特征的…

GBASE南大通用携手宇信科技打造“一表通”全链路解决方案

什么是“一表通”? “一表通”是国家金融监督管理总局为发挥统计监督效能、完善银行保险监管统计制度、推进监管数据标准化建设、打破数据壁垒,而制定的新型监管数据统计规范。相较于以往的报送接口,“一表通”提高了对报送时效性、校验准确性…

特权FPGA学习笔记

C/C/system C-----vivado HLS------------->RTL门电路,省去了HDL语言的中间转换,可以看作是C向C#的演进,基于zynq面向以前使用C的开发人员,但是个人觉得,HDL存在且未被C取代,工具的着眼点就是面向底层调…

Android开发之低功耗蓝牙(原生使用)之一

上一篇文章http://t.csdnimg.cn/pAwZE主要讲解利用三方库进行的低功耗蓝牙的讲解,本篇文章主要进行原生对低功耗蓝牙的操作。 在使用蓝牙之前我们首先要先进行蓝牙权限的获取,上篇文章已讲解怎么获取蓝牙权限,本篇文章就不讲解了&#xff0c…

linux中堡垒机

堡垒机 堡垒机概念目的 安装Jumpserver使用资产管理资产列表创建需要管理的服务器创建用户权限管理页面进行资产授权操作视频 应用管理应用管理页面创建需要管理的应用,这里用数据库mysql举例进入后点击创建资产管理创建登录应用所需的用户选择创建mysql关系型数据库…

点击进入全屏事件

//点击进入全屏事件 this.launchFullscreen(document.documentElement);launchFullscreen(element){if(element.requestFullscreen) {element.requestFullscreen();} else if(element.mozRequestFullScreen) {element.mozRequestFullScreen();} else if(element.webkitRequestF…

AI日报:人工智能与新材料的发现

文章目录 总览人工智能正在革命性地发现新的或更强的材料,这将改变制造业。更坚韧的合金问题研究解决方案 新材料人工智能存在的挑战方法探索 日本的研究人员正在使用人工智能制造更强的金属合金或发现新材料,并彻底改变制造过程 总览 日本的研究人员开…

Python的sort()与sorted()排序函数的区别

文章目录 一、工具二、需求三、简单的使用例子四、原理分析Timsort算法主要特点:Timsort算法的工作原理:sort() 方法和 sorted() 函数的差异: 五、Python中的单例实现简单示例 一、工具 Python 3.10.0 pycharm 2022 二、需求 最近做项目的…