机读格式显示(MARC)

000 01247oam2 2200301 450

001 0000690016

005 20240601202400.0

010 __ |a 978-7-302-60772-4 |d CNY69.00

100 __ |a 20230115d2022 em y0chiy50 ea

101 1_ |a chi |c eng

102 __ |a CN |b 110000

105 __ |a a z 000yy

106 __ |a r

200 1_ |a Python深度强化学习 |A Python shen du qiang hua xue xi |e 使用PyTorch，TensorFlow和OpenAI Gym |d Deep reinforcement learning with Python |e with PyTorch, TensorFlow and OpenAI Gym |f (印)尼米什·桑吉(Nimish Sanghi)著 |g 罗俊海译 |z eng

210 __ |a 北京 |c 清华大学出版社 |d 2022

215 __ |a 233页 |c 图 |d 26cm

225 2_ |a 电子信息前沿技术丛书

300 __ |a Apress

306 __ |a 限中国大陆发行

330 __ |a 本书首先介绍马尔可夫决策、基于模型的算法、无模型方法、动态规划、蒙特卡洛和函数逼近等基础知识；然后阐述强化学习、深度强化学习、多智能体强化学习等算法，及其Python应用实现。

461 _0 |1 2001 |a 电子信息前沿技术丛书

510 1_ |a Deep reinforcement learning with Python |e with PyTorch, TensorFlow and OpenAI Gym |z eng

606 0_ |a 程序语言 |x 程序设计

690 __ |a TP312PY |v 5

701 _0 |c (印) |a 桑吉 |A sang ji |c (Sanghi, Nimish) |4 著

702 _0 |a 罗俊海 |A luo jun hai |f (1980-) |4 译

801 _0 |a CN |b LIB |c 20240601

905 __ |a LIB |d TP312PY/114