图书介绍
深入浅出强化学习 原理入门PDF|Epub|txt|kindle电子书版本网盘下载
![深入浅出强化学习 原理入门](https://www.shukui.net/cover/70/34582528.jpg)
- 郭宪,方勇纯编著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121329180
- 出版时间:2018
- 标注页数:239页
- 文件大小:24MB
- 文件页数:255页
- 主题词:人工智能
PDF下载
下载说明
深入浅出强化学习 原理入门PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
1绪论1
1.1这是一本什么书1
1.2强化学习可以解决什么问题2
1.3强化学习如何解决问题4
1.4强化学习算法分类及发展趋势5
1.5强化学习仿真环境构建7
1.5.1 gym安装及简单的demo示例8
1.5.2深入剖析gym环境构建10
1.6本书主要内容及安排12
第一篇 强化学习基础17
2马尔科夫决策过程18
2.1马尔科夫决策过程理论讲解18
2.2 MDP中的概率学基础讲解26
2.3基于gym的MDP实例讲解29
2.4习题34
3基于模型的动态规划方法36
3.1基于模型的动态规划方法理论36
3.2动态规划中的数学基础讲解47
3.2.1线性方程组的迭代解法47
3.2.2压缩映射证明策略评估的收敛性49
3.3基于gym的编程实例52
3.4最优控制与强化学习比较54
3.5习题56
第二篇 基于值函数的强化学习方法57
4基于蒙特卡罗的强化学习方法58
4.1基于蒙特卡罗方法的理论58
4.2统计学基础知识67
4.3基于Python的编程实例71
4.4习题74
5基于时间差分的强化学习方法75
5.1基于时间差分强化学习算法理论讲解75
5.2基于Python和gym的编程实例83
5.3习题87
6基于值函数逼近的强化学习方法88
6.1基于值函数逼近的理论讲解88
6.2 DQN及其变种94
6.2.1 DQN方法94
6.2.2 Double DQN100
6.2.3优先回放(Prioritized Replay)102
6.2.4 Dueling DQN104
6.3函数逼近方法105
6.3.1基于非参数的函数逼近105
6.3.2基于参数的函数逼近111
6.3.3卷积神经网络117
6.4习题123
第三篇 基于直接策略搜索的强化学习方法125
7基于策略梯度的强化学习方法126
7.1基于策略梯度的强化学习方法理论讲解126
7.2基于gym和TensorFlow的策略梯度算法实现134
7.2.1安装Tensorflow135
7.2.2策略梯度算法理论基础135
7.2.3 Softmax策略及其损失函数136
7.2.4基于TensorFlow的策略梯度算法实现138
7.2.5基于策略梯度算法的小车倒立摆问题141
7.3习题141
8基于置信域策略优化的强化学习方法142
8.1理论基础143
8.2 TRPO中的数学知识153
8.2.1信息论153
8.2.2优化方法155
8.3习题164
9基于确定性策略搜索的强化学习方法165
9.1理论基础165
9.2习题170
10基于引导策略搜索的强化学习方法171
10.1理论基础171
10.2 GPS中涉及的数学基础178
10.2.1监督相LBFGS优化方法178
10.2.2 ADMM算法179
10.2.3 KL散度与变分推理183
10.3习题184
第四篇 强化学习研究及前沿185
11逆向强化学习186
11.1概述186
11.2基于最大边际的逆向强化学习187
11.3基于最大熵的逆向强化学习194
11.4习题201
12组合策略梯度和值函数方法202
13值迭代网络207
13.1为什么要提出值迭代网络207
13.2值迭代网络210
14基于模型的强化学习方法:PILCO及其扩展214
14.1概述214
14.2 PILCO216
14.3滤波PILCO和探索PILCO226
14.3.1滤波PILCO算法227
14.3.2有向探索PILCO算法230
14.4深度PILCO232
后记235
参考文献237