机读格式显示(MARC)
- 010 __ |a 978-7-121-36746-5 |d CNY89.00
- 100 __ |a 20200330d2020 em y0chiy50 ea
- 200 1_ |a 深入浅出强化学习 |A shen ru qian chu qiang hua xue xi |i 编程实战 |f 郭宪, 宋俊潇, 方勇纯著
- 210 __ |a 北京 |c 电子工业出版社 |d 2020.3
- 215 __ |a 264页 |c 图 |d 24cm
- 311 __ |a 本书是《深入浅出强化学习:原理入门》的姐妹篇
- 320 __ |a 有书目 (第261-262页)
- 330 __ |a 本书首先介绍马尔科夫决策过程的理论框架,然后介绍基于动态规划的策略迭代算法和值迭代算法,在此基础上分三大篇分别介绍了目前强化学习算法中最基本的算法。第一篇为基于值函数的强化学习算法,该篇介绍了基于两种策略评估方法(蒙特卡洛策略评估和时间差分策略评估)的强化学习算法,进而介绍了如何将函数逼近的方法引入到强化学习算法中。第二篇为直接策略搜索方法,该篇介绍了最基本的策略梯度方法、基本的AC方法、PPO方法和DDPG算法。第三篇为基于模型的强化学习方法,该篇介绍了基于mpc的方法,AlphaZero算法基本原理及在五子棋上的具体实现细节。
- 488 _0 |1 2001 |a 深入浅出强化学习 |i 原理入门
- 517 1_ |a 编程实战 |A bian cheng shi zhan
- 606 0_ |a 人工智能 |A ren gong zhi neng |x 程序设计
- 701 _0 |a 郭宪 |A guo xian |4 著
- 701 _0 |a 宋俊潇 |A song jun xiao |4 著
- 701 _0 |a 方勇纯 |A fang yong chun |4 著
- 801 _0 |a CN |b 江苏新华 |c 20200102
- 905 __ |a LIB |d TP18/260