机读格式显示(MARC)
- 000 02227nam0 2200337 450
- 010 __ |a 978-7-121-47531-3 |d CNY118.00
- 100 __ |a 20240913d2024 em y0chiy50 ea
- 200 1_ |a 视觉问答 |A shi jue wen da |e 理论与实践 |d = Visual question answering |e from theory to application |f 吴琦 ... [等] 著 |g 王鑫, 聂婕, 朱文武译 |z eng
- 210 __ |a 北京 |c 电子工业出版社 |d 2024.07
- 215 __ |a XVII, 223页 |c 图 (部分彩图) |d 24cm
- 304 __ |a 题名页题其余责任者: 王鹏, 王鑫, 何晓冬, 朱文武
- 306 __ |a 由Springer Nature Singapore Pte Ltd.授权出版
- 314 __ |a 吴琦, 阿德莱德大学副教授, 澳大利亚机器学习研究中心视觉和语言实验室主任, 2019-2021年获得ARCDiscovery DECRA Fellowship。2019年被澳大利亚科学院授予罗素奖。2015年获得英国巴斯大学计算机科学博士学位, 2011年获得硕士学位。他的研究兴趣主要是计算机视觉、自然语言处理和机器学习。目前, 他正在研究视觉语言问题, 主要是图像描述、视觉问答 (VQA) 以及视觉语言导航方面。在TPAMI、CVPR、ICCV、ECCV等著名会议和期刊上发表论文100余篇。他还是CVPR、ICCV和NeurlPS会议的领域主席。
- 330 __ |a 本书共5部分, 第1部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术, 包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2部分将图像视觉问答进一步分为5类, 即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外, 概述基于图像的其他视觉问答任务, 例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3部分讨论基于视频的视觉问答及其相关模型。第4部分讨论与视觉问答相关的高级任务, 包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解, 它们是视觉问答任务的扩展。第5部分对该领域进行总结与展望, 讨论视觉问答领域的未来研究方向。
- 500 10 |a Visual question answering : from theory to application |A Visual Question Answering : From Theory To Application |m Chinese
- 606 0_ |a 计算机视觉 |A ji suan ji shi jue |x 图象处理 |x 基本知识
- 701 _0 |a 吴琦 |A wu qi |4 著
- 702 _0 |a 王鑫 |A wang xin |4 译
- 702 _0 |a 聂婕 |A nie jie |4 译
- 702 _0 |a 朱文武 |A zhu wen wu |4 译
- 801 _0 |a CN |b 安徽时代 |c 20240913
- 905 __ |a LIB |d TP391.413/472