机读格式显示(MARC)

000 01337nam0 2200277 450

001 0000589446

005 20230616185400.0

010 __ |a 978-7-115-58470-0 |d CNY99.90

100 __ |a 20220402d2022 em y0chiy50 ea

101 0_ |a chi

102 __ |a CN |b 110000

105 __ |a a z 000yy

106 __ |a r

200 1_ |a Easy RL |A Easy Rl |b 专著 |e 强化学习教程 |f 王琦，杨毅远，江季编著

210 __ |a 北京 |c 人民邮电出版社 |d 2022

215 __ |a 245页 |c 图 |d 23cm

314 __ |a 王琦，中国科学院大学硕士在读，Datawhale成员。杨毅远，清华大学硕士在读，Datawhale成员。江季，北京大学硕士在读，Datawhale成员。主要研究方向为强化学习、机器人。

330 __ |a 本书结合了李宏毅老师的“深度强化学习”、周博磊老师的“强化学习纲要”、李科浇老师的“世界冠军带你从零实践强化学习”公开课的精华内容，在理论严谨的基础上深入浅出地介绍马尔可夫决策过程、蒙特卡洛方法、时序差分方法、Sarsa、Q学习等传统强化学习算法，以及策略梯度、近端策略优化、深度Q网络、深度确定性策略梯度等常见深度强化学习算法的基本概念和方法，并以大量生动有趣的例子帮助读者理解强化学习问题的建模过程以及核心算法的细节。

517 1_ |a 强化学习教程 |A qiang hua xue xi jiao cheng

606 0_ |a 机器学习 |A Ji Qi Xue Xi |j 教材

690 __ |a TP181 |v 5

701 _0 |a 王琦 |A wang qi |4 编著

701 _0 |a 杨毅远 |A yang yi yuan |4 编著

701 _0 |a 江季 |A jiang ji |4 编著

801 _0 |a CN |b LIB |c 20230616

905 __ |a LIB |d TP181/241