图书介绍

深入浅出强化学习 原理入门PDF|Epub|txt|kindle电子书版本网盘下载

深入浅出强化学习 原理入门
  • 郭宪,方勇纯编著 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121329180
  • 出版时间:2018
  • 标注页数:239页
  • 文件大小:24MB
  • 文件页数:255页
  • 主题词:人工智能

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

深入浅出强化学习 原理入门PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

1绪论1

1.1这是一本什么书1

1.2强化学习可以解决什么问题2

1.3强化学习如何解决问题4

1.4强化学习算法分类及发展趋势5

1.5强化学习仿真环境构建7

1.5.1 gym安装及简单的demo示例8

1.5.2深入剖析gym环境构建10

1.6本书主要内容及安排12

第一篇 强化学习基础17

2马尔科夫决策过程18

2.1马尔科夫决策过程理论讲解18

2.2 MDP中的概率学基础讲解26

2.3基于gym的MDP实例讲解29

2.4习题34

3基于模型的动态规划方法36

3.1基于模型的动态规划方法理论36

3.2动态规划中的数学基础讲解47

3.2.1线性方程组的迭代解法47

3.2.2压缩映射证明策略评估的收敛性49

3.3基于gym的编程实例52

3.4最优控制与强化学习比较54

3.5习题56

第二篇 基于值函数的强化学习方法57

4基于蒙特卡罗的强化学习方法58

4.1基于蒙特卡罗方法的理论58

4.2统计学基础知识67

4.3基于Python的编程实例71

4.4习题74

5基于时间差分的强化学习方法75

5.1基于时间差分强化学习算法理论讲解75

5.2基于Python和gym的编程实例83

5.3习题87

6基于值函数逼近的强化学习方法88

6.1基于值函数逼近的理论讲解88

6.2 DQN及其变种94

6.2.1 DQN方法94

6.2.2 Double DQN100

6.2.3优先回放(Prioritized Replay)102

6.2.4 Dueling DQN104

6.3函数逼近方法105

6.3.1基于非参数的函数逼近105

6.3.2基于参数的函数逼近111

6.3.3卷积神经网络117

6.4习题123

第三篇 基于直接策略搜索的强化学习方法125

7基于策略梯度的强化学习方法126

7.1基于策略梯度的强化学习方法理论讲解126

7.2基于gym和TensorFlow的策略梯度算法实现134

7.2.1安装Tensorflow135

7.2.2策略梯度算法理论基础135

7.2.3 Softmax策略及其损失函数136

7.2.4基于TensorFlow的策略梯度算法实现138

7.2.5基于策略梯度算法的小车倒立摆问题141

7.3习题141

8基于置信域策略优化的强化学习方法142

8.1理论基础143

8.2 TRPO中的数学知识153

8.2.1信息论153

8.2.2优化方法155

8.3习题164

9基于确定性策略搜索的强化学习方法165

9.1理论基础165

9.2习题170

10基于引导策略搜索的强化学习方法171

10.1理论基础171

10.2 GPS中涉及的数学基础178

10.2.1监督相LBFGS优化方法178

10.2.2 ADMM算法179

10.2.3 KL散度与变分推理183

10.3习题184

第四篇 强化学习研究及前沿185

11逆向强化学习186

11.1概述186

11.2基于最大边际的逆向强化学习187

11.3基于最大熵的逆向强化学习194

11.4习题201

12组合策略梯度和值函数方法202

13值迭代网络207

13.1为什么要提出值迭代网络207

13.2值迭代网络210

14基于模型的强化学习方法:PILCO及其扩展214

14.1概述214

14.2 PILCO216

14.3滤波PILCO和探索PILCO226

14.3.1滤波PILCO算法227

14.3.2有向探索PILCO算法230

14.4深度PILCO232

后记235

参考文献237

热门推荐