尽管视觉语言模型 (VLM) 在许多任务上取得了显著进展,包括图像描述、视觉问答、具身规划和动作识别等,但在空间推理方面仍然存在挑战。许多模型在理解目标在三维空间中的位置或空间关系方面仍有困难。这表明在进一步发展视觉语言模型的过程中,需要着重解决空间推理的问题,以提高模型在处理复杂视觉任务时的准确性和效率。
研究者经常通过人类的身体体验和进化发展来探讨这个问题。人类拥有固有的空间推理技能,可以轻松确定空间关系,比如目标相对位置、估算距离和大小,而无需进行复杂的思维过程或心理计算。
这种对直接空间推理任务的熟练,与当前视觉语言模型能力的局限形成鲜明对比,并引发了一个引人注目的研究问题:是否能够赋予视觉语言模型类似于人类的空间推理能力?
最近,谷歌提出了一种具备空间推理能力的视觉语言模型:SpatialVLM。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
研究者认为当前视觉语言模型在空间推理能力方面的限制可能并非来自其架构的限制,而更可能是由于训练时使用的常见数据集的限制。许多视觉语言模型是在大规模的图像 - 文本对数据集上进行训练的,这些数据集中包含的空间信息有限。获取富含空间信息的具身数据或进行高质量的人工注释是一项具有挑战性的任务。为了解决这一问题,自动数据生成和增强技术被提出。然而,之前的研究大多集中在生成真实语义标注的逼真图像上,而忽略了对象和 3D 关系的丰富性。因此,未来的研究可以探索如何通过自动生成技术来提高模型对空间信息的理解,例如通过引入更多的具身数据或者注重对象和 3D 关系的建模。这将有助于改善视觉语言模型在空间推理方面的性能,使其更适用于现实世界的应用场景。
相反地,本研究专注于利用现实世界数据直接提取空间信息,以展现真实3D世界的多样性和复杂性。这一方法的灵感源自最新的视觉模型技术,能够自动从2D图像中生成3D空间注释。
SpatialVLM系统的一个关键功能是利用目标检测、深度估计、语义分割和目标中心描述模型等技术,对大规模密集注释的真实世界数据进行处理,以加强视觉语言模型的空间推理能力。通过将视觉模型生成的数据转换成能够用于描述、VQA和空间推理的混合数据格式,SpatialVLM系统实现了数据生成和对视觉语言模型进行训练的目标。研究者的努力使得这种系统能够更好地理解和处理视觉信息,从而提高其在复杂空间推理任务中的表现。这种方法有助于训练视觉语言模型更好地理解并处理图像和文本之间的关系,从而提高其在各种视觉任务中的准确性和效率。
研究表明,本文提出的视觉语言模型在多个领域展现了令人满意的能力。首先,它在处理定性空间问题时表现出明显的提升。其次,即使在训练数据存在噪声的情况下,该模型也能够可靠地进行定量估计。这种能力不仅使其具备了关于目标大小的常识知识,还使其在处理重新排列任务并进行开放词汇奖励标注方面非常有用。最后,结合强大的大型语言模型,该空间视觉语言模型在自然语言界面的基础上,能够进行空间推理链,解决复杂的空间推理任务。
为了使视觉语言模型具备定性和定量的空间推理能力,研究者提出生成一个大规模的空间 VQA 数据集用于训练视觉语言模型。具体而言,就是设计一个全面的数据生成框架,首先利用现成的计算机视觉模型,包括开放词汇检测、度量深度估计、语义分割和以目标为中心的描述模型,提取以目标为中心的背景信息,然后采用基于模板的方法生成质量合理的大规模空间 VQA 数据。本文中,研究者使用了生成的数据集训练 SpatialVLM,以学习直接的空间推理能力,然后将其与 LLMs 嵌入的高层常识推理相结合,解锁链式思维的空间推理。
2d 图像的空间基准
研究者设计了一个生成包含空间推理问题的 VQA 数据的流程,具体流程如图 2 中所示。
1、语义过滤:在本文的数据合成流程中,第一步是采用基于 CLIP 的开放词汇分类模型对所有图像进行分类,排除不适合的图像。
2、2D 图像提取以目标为中心的背景:这一步获得由像素簇和开放词汇描述组成的以目标为中心的实体。
3、2D 背景信息到 3D 背景信息:经过深度估计,将单眼的 2D 像素提升到度量尺度的 3D 点云。本文是第一个将互联网规模的图像提升至以目标为中心的 3D 点云,并用其合成带有 3D 空间推理监督的 VQA 数据。
4、消除歧义:有时一张图像中可能有多个相似类别的目标,导致它们的描述标签存在歧义。因此,在询问关于这些目标的问题之前,需要确保参考表达不含有歧义。
大规模空间推理 VQA 数据集
研究者通过使用合成数据进行预训练,将「直观」的空间推理能力融入 VLM。因此,合成涉及图像中不超过两个目标(表示为 A 和 B)的空间推理问答对。这里主要考虑以下两类问题:
1、定性问题:询问某些空间关系的判断。例如「给定两个对象 A 和 B,哪个
更靠左?」
2、定量问题:询问更精细的答案,包括数字和单位。例如「相对于对象 B,对象 A 向左多少?」、「对象 A 距离 B 有多远?」
此处,研究者指定了 38 种不同类型的定性和定量空间推理问题,每种问题包含大约 20 个问题模板和 10 个答案模板。
图 3 展示了本文获取的合成问答对的示例。研究者创建了一个包括 1000 万张图像和 20 亿个直接空间推理问答对 (50% 是定性问题,50% 是定量问题) 的庞大数据集。
学习空间推理
直接空间推理:视觉语言模型接收图像 I 和关于空间任务的查询 Q 作为输入,并输出一个答案 A,并且以文本的格式呈现,无需使用外部工具或与其他大型模型进行交互。本文采用与 PaLM-E 相同的架构和训练流程,只是将 PaLM 的骨干替换为 PaLM 2-S。然后,使用原始 PaLM-E 数据集和作者的数据集的混合进行模型训练,其中有 5% 的 token 用于空间推理任务。
链式思维空间推理:SpatialVLM 提供了自然语言接口,可用于查询具有基础概念的问题,当与强大的 LLM 结合使用时,可以执行复杂的空间推理。
与 Socratic Models 和 LLM 协调器中的方法类似,本文利用 LLM (text-davinci-003) 来协调与 SpatialVLM 进行通信,以链式思维提示的方式解决复杂问题,如图 4 所示。
研究者通过实验证明并回答了如下的问题:
问题 1:本文设计的空间 VQA 数据生成和训练流程,是否提高了 VLM 的一般空间推理能力?以及它的表现如何?
问题 2:充满噪音数据的合成空间 VQA 数据和不同的训练策略,对学习性能有何影响?
问题 3:装备了「直接」空间推理能力的 VLM,是否能够解锁诸如链式思维推理和具身规划等新能力?
研究者通过使用 PaLM-E 训练集和本文设计的空间 VQA 数据集的混合来训练模型。为了验证 VLM 在空间推理上的局限是否是数据问题,他们选择了当前最先进的视觉语言模型作为基线。这些模型的训练过程中语义描述任务占据了相当的比重,而不是使用本文的空间 VQA 数据集进行训练。
空间 VQA 表现
定性空间 VQA。对于这一问题,人工注释的答案和 VLM 输出均为自由形式的自然语言。因此,为了评估 VLM 的性能,研究者使用人工评定员确定答案是否正确,表 1 中展示了各个 VLM 的成功率。
定量空间 VQA。如表 2 所示,本文的模型在两个指标上都比基线表现更好且遥遥领先。
空间 VQA 数据对通用 VQA 的影响
第二个问题是,由于与大量的空间 VQA 数据共同训练,VLM 在其他任务上的表现是否会因此而降低。通过将本文模型与在通用 VQA 基准上没有使用空间 VQA 数据进行训练的基本 PaLM 2-E 进行了比较,如表 3 所总结的,本文的模型在 OKVQA 基准上达到了与 PaLM 2-E 相当的性能,其中包括了有限的空间推理问题,并且在 VQA-v2 test-dev 基准上表现略好,该基准包含了空间推理问题。
ViT 编码器在空间推理中的影响
Frozen ViT (在对比目标上进行训练) 是否编码了足够的信息来进行空间推理?为了探索这一点,研究者的实验从第 110,000 步的训练开始,分成两个训练运行,一个 Frozen ViT,另一个 Unfrozen ViT。通过对这两个模型进行了 70,000 步的训练,评估结果如表 4 所示。
含噪声的定量空间答案的影响
研究者者使用机器人操作数据集训练视觉语言模型,发现模型能够在操作领域进行精细的距离估计 (图 5),进一步证明了数据的准确性。
表 5 比较了不同的高斯噪声标准差对定量空间 VQA 中整体 VLM 性能的影响。
1、视觉语言模型作为密集奖励注释器
视觉语言模型在机器人学领域有一个重要的应用。最近的研究表明,视觉语言模型和大型语言模型可以作为机器人任务的通用开放词汇奖励注释器和成功检测器,可用于制定有效的控制策略。然而,VLM 的奖励标注能力通常受到空间意识不足的限制。由于 SpatialVLM 能够从图像中定量估计距离或尺寸,因此它独特地适用作为密集的奖励注释器。作者进行一项真实的机器人实验,用自然语言指定了一个任务,并要求 SpatialVLM 为轨迹中的每一帧注释奖励。
图 6 中每个点表示一个目标的位置,它们的颜色表示注释的奖励。随着机器人朝着指定目标的进展,可以看到奖励是单调增加的,表明 SpatialVLM 作为密集奖励注释器的能力。
2、链式思维空间推理
研究者还研究了 SpatialVLM 是否能够用于执行需要多步推理的任务,考虑到它对基本空间问题的增强回答能力。作者在图 1 和图 4 中展示了一些例子。当大语言模型 (GPT-4) 装备有 SpatialVLM 作为空间推理子模块时,可以执行复杂的空间推理任务,比如回答环境中的 3 个对象是否能够形成「等腰三角形」。
更多技术细节和实验结果请参阅原论文。
# 链式
# 进行了
# 展示了
# 如图
# 多个
# 使其
# 是否能够
# 所示
# 这一
# 自然语言
# 排列
# palm
# gpt
# https
# github
# 对象
# 接口
# Token
# 架构
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
AI末日预言?智能聊天机器人真的能替代信仰吗?
智行ai抢票如何绑定微信通知_智行ai抢票微信提醒绑定与推送设置【指南】
精选AI销售工具:提升业绩的终极指南(2025年最新)
豆包AI怎么查看个人主页_管理账号信息与偏好设置
豆包 AI 辅助进行家庭装修风格对比分析
智行ai抢票能否跨站抢票_智行ai抢票跨站抢票开启与规则【教程】
SEO必备工具:网站分析与优化终极指南
Vidu AI:使用Q1模型轻松创建电影级短片
怎么用AI学习新知识?3步教你构建个人知识库
Azure AI 文本分类指南:自定义模型,提高文本分析精度
DeepSeek写小说怎么用_DeepSeek写小说使用方法详细指南【教程】
飞常准AI如何预判放票时间_飞常准AI放票时间预测与抢票时机【技巧】
Claude怎样写引导型提示词_Claude引导提示词写法【方法】
通义千问怎样写文案_通义千问文案写作教程【指南】
探索都市传说:追寻鳄鱼飞机怪物“Bombardino Crocodilo”
OpenAI Codex最强攻略:提升AI编码效率的秘诀
百度AI搜索怎样设置搜索偏好_百度AI搜索偏好设置与个性化推荐【技巧】
DeepSeek 在量化交易策略回测中的实战教程
AI视频播客制作终极指南:告别繁琐编辑,轻松发布!
批改网AI检测工具怎样设置检测维度_批改网AI检测工具维度勾选与权重调整【技巧】
改善面部不对称:简单有效的肌肉平衡技巧
AI代码助手的崛起:软件工程的未来展望与实用指南
Amazon Rekognition: 图像与视频分析的强大AI工具
腾讯混元图像3.0上线LiblibAI,80B参数助力创作者高效出图
ChatGPT怎么设置中文界面_ChatGPT中文设置步骤【方法】
通义千问怎样优化提示词减冗余_通义千问减冗余技巧【方法】
CodeRabbit CLI: AI 代码审查工具,提升编码效率与代码质量
壹伴AI智能排版如何自动生成文章配图_壹伴AI智能排版配图生成与版权说明【教程】
如何通过 DeepSeek 优化 Kubernetes 配置文件
百度AI对话助手入口 智能聊天机器人入口
AI广告全面解析:免费教程、JSON提示与营销策略
Removebg怎样快速抠图_Removebg上传图片与自动抠图步骤【教程】
途牛旅游AI怎样设置抢票提醒_途牛AI抢票提醒时间与频率设置【方法】
国产开源模型Kimi K2 Thinking上线美应用,挑战美国科技巨头!
电脑硬件升级指南:旧电脑的回收利用与性能提升
GitHub Copilot与Azure AI Foundry模型:加速AI编程实践
Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】
稿定设计AI抠图怎样调整透明度_稿定设计AI透明度滑块与渐变设置【攻略】
教你用AI将一段旋律扩展成一首完整的曲子
2025年QA工程师必备:五款AI自动化测试工具深度解析
手相解析:生命线的形状与意义详解,预示健康、财富和命运
Canva AI终极指南:释放AI力量,设计触手可及
利用AI快速生成数组和枚举:详细指南与实用技巧
AI在建筑行业的革命:提升效率与优化流程
Artist.ly AI Image Designer: 终极指南
AI电子书写作终极指南:ChatGPT和Canva实战教程
如何用AI帮你制定个人OKR?目标管理从未如此简单
淋巴按摩终极指南:在家打造紧致透亮肌肤
AI赋能:五款颠覆性工具助你在线赚钱
老电脑焕新:i5-2400搭配FirePro V5900 打造复古游戏利器
2024-02-19
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。