机读格式显示(MARC)

000 01355nam 2200313 450

001 0000528800

005 20200915105600.0

010 __ |a 978-7-302-53829-5 |d CNY99.00

100 __ |a 20200602d2020 em y0chiy50 ea

101 0_ |a chi

102 __ |a CN |b 110000

105 __ |a af a 000yy

106 __ |a r

200 1_ |a 强化学习 |A qiang hua xue xi |d = Reinforcement learning |f 邹伟, 鬲玲, 刘昱杓著 |z eng

210 __ |a 北京 |c 清华大学出版社 |d 2020.6

215 __ |a 17, 380页, 8页图版 |c 图 (部分彩图) |d 24cm

225 2_ |a 人工智能科学与技术丛书 |A ren gong zhi neng ke xue yu ji shu cong shu

320 __ |a 有书目 (第379-380页)

330 __ |a 该书共14章，大致分为4个部分：第1部分介绍强化学习的基础知识，包括强化学习的定义，发展历程，以及要解决的问题。第2部分包括动态规划方法，蒙特卡罗方法，时间差分方法。第3部分通过集成多个基本算法，或者将值函数、策略做函数近似，第4部分使用强化学习解决两类博弈问题：完美信息博弈和不完美信息博弈。

333 __ |a 可作为高等院校计算机、自动化及相关专业的本科生或研究生教材，也可供对强化学习感兴趣的研究人员和工程技术人员阅读参考

410 _0 |1 2001 |a 人工智能科学与技术丛书

510 1_ |a Reinforcement learning |z eng

606 0_ |a 机器学习 |A ji qi xue xi

690 __ |a TP181 |v 5

701 _0 |a 邹伟 |A zou wei |4 著

701 _0 |a 鬲玲 |A ge ling |4 著

701 _0 |a 刘昱杓 |A liu yu biao |4 著

801 _0 |a CN |b 江苏新华 |c 20200402

905 __ |a LIB |d TP181/137