开源!超越ZoeDepth! DepthFM:快速且精确的单目深度估计!


0. 这篇文章干了啥?

提出了DepthFM:一个多功能且快速的最先进的生成式单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修复等下游任务中的最先进能力。DepthFM效率高,可以在少数推理步骤内合成深度图。

下面一起来阅读一下这项工作~

1. 论文信息

标题:DepthFM: Fast Monocular Depth Estimation with Flow Matching

作者:Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer

机构:MCML

原文链接:https://arxiv.org/abs/2403.13788

代码链接:https://github.com/CompVis/depth-fm

官方主页:https://depthfm.github.io/

2. 摘要

针对许多下游观光任务和应用至关重要。目前针对此问题的判别式方法受到模糊伪影的限制,而最先进的生成方法由于其SDE性质导致训练样本速度缓慢。我们不是从噪声开始,而是寻求从输入图像到深度图像的直接映射。我们观察到这可通过流匹配来有效地构建,因为其在解空间中的直线轨迹提供了效率和高质量。我们的研究表明,预先训练的图像扩散模型可用于作为流匹配深度模型的充分先验知识。在复杂自然场景的基准测试中,尽管仅在少量合成数据上进行训练,我们的轻量级方法以有利的低计算成本表现出最先进的性能。

3. 效果展示

DepthFM是一种具有强零样本泛化能力的快速推理流匹配模型,可利用强大的先验知识,并且很容易地泛化到未知的真实图像中。在合成数据上进行训练后,模型可以很好地泛化到未知的真实图像中,并对深度图像进行精确匹配。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

与其他最先进的模型相比,DepthFM仅用一个函数评估就获得了明显更清晰的图像。Marigold的深度估计耗时是DepthFM的两倍,但无法生成相同粒度的深度图。

4. 主要贡献

(1)提出了DepthFM,一种最先进的、多功能的、快速的单目深度估计模型。除了传统的深度估计任务外,DepthFM还展示了在深度修补和深度条件图像合成等下游任务中的最新能力。

(2)展示了将强大的图像先验从扩散模型成功转移到流匹配模型,几乎不依赖于训练数据,也不需要真实世界的图像。

(3)表明,流匹配模型高效,并能在单个推理步骤内合成深度图。

(4)尽管仅在合成数据上进行训练,但DepthFM在基准数据集和自然图像上表现出色。

(5)将表面法线损失作为辅助目标,以获得更准确的深度估计。

(6)除了深度估计,还可可靠地预测其预测的置信度。

5. 具体原理是啥?

训练Pipeline。 训练受到流匹配和表面法向损失的限制:对于流匹配,使用数据依赖的流匹配来回归地面真实深度与对应图像之间的向量场。此外,通过一个表面法向损失来实现几何真实感。

数据相关的流匹配: DepthFM通过利用图像到深度对,回归出图像分布和深度分布之间的直线向量场。这种方法在不牺牲性能的情况下促进了高效的几步推理。

从扩散先验微调: 作者展示了成功将强大的图像先验从基础图像合成扩散模型(Stable Diffusion v2-1)转移到流匹配模型,几乎不依赖训练数据,并且不需要真实世界的图像。

辅助表面法线损失: 考虑到DepthFM只在合成数据上进行训练,大多数合成数据集提供了地面真实表面法线,将表面法线损失作为辅助目标,以增强DepthFM深度估计的准确性。

6. 实验结果

DepthFM通过仅在63k纯合成样本上进行训练展现出了显著的泛化能力,并且能够在室内外数据集上进行零-shot深度估计。表1定性地展示了DepthFM与最先进的对应模型的性能对比。虽然其他模型通常依赖于大量数据集进行训练,但DepthFM利用了基于扩散的基础模型中固有的丰富知识。这种方法不仅节省了计算资源,而且强调了模型的适应性和训练效率。

对基于扩散的Marigold深度估计、流匹配(FM)基准和DepthFM模型进行比较。每种方法仅使用一个集合成员进行评估,并针对两个常见基准数据集进行不同数量的函数评估(NFE)。与FM基准相比,DepthFM集成了训练过程中的法线损失和数据相关的耦合。

对于Marigold和的DepthFM模型在不同数量的功能评估中的定性结果。值得注意的是,通过一步推断,Marigold并没有给出任何有意义的结果,而DepthFM的结果已经显示了真实的深度图。

在Hypersim上进行深度补全。左:给予部分深度。中:深度估计从给定的部分深度。右:真值深度。

7. 总结

DepthFM,一种用于单目深度估计的流匹配方法。通过学习输入图像和深度之间的直接映射,而不是将正态分布去噪为深度图,该方法明显比当前基于扩散的解决方案更高效,同时仍提供细粒度的深度图,而不会出现判别式范式的常见伪影。DepthFM使用预先训练好的图像扩散模型作为先验,有效地转移到了深度流匹配模型中。因此,DepthFM只在合成数据上进行了训练,但在推断期间仍然能很好地推广到自然图像。此外,辅助表面法线损失已被证明能改善深度估计。DepthFM的轻量级方法具有竞争力,速度快,并提供可靠的置信度估计。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文


# github  # stable diffusion  # https  # 最先进  # 很好  # 展示了  # 提出了  # 多功能  # 有效地  # 只在  # 的是  # 正态分布  # 也不 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 通义千问网页版怎么清历史_通义千问历史清理方法【方法】  Tenorshare AI Bypass:终极AI内容人性化工具深度评测  Codeforces Pair Programming Problem: C 解题思路  AI测试面试准备:提升你的面试技巧与知识储备  教你用AI一键生成Excel VBA脚本,彻底告别重复操作  即梦ai能否生成国风插画_即梦ai国风元素调用与文化符号添加【技巧】  DeepSeek辅助撰写专利申请 DeepSeek技术创新文档写作  解密AI时尚摄影:打造完美形象的终极指南  GitHub MCP Server:AI赋能代码管理的未来  播客数据深度分析:用户地域分布及增长策略探讨  法国历史古迹修复:探秘 Château de Purnon 城堡的艺术与挑战  暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活  提升阅读理解:策略、技巧和有效方法全面指南  AI游戏革命:文本驱动,无限可能  DeepSeek分析Excel怎么用_DeepSeek分析Excel使用方法详细指南【教程】  AI Buildr: 构建 AI 应用的终极指南  AI赋能营销:5分钟快速生成品牌营销素材全攻略  Agentic Testing入门:使用Playwright和Claude Code构建自动化框架  Tradie Hub:领先的线索管理系统,助力业务增长  Vizeo AI视频生成器:无需技术,轻松打造营销利器  揭秘面部和谐:打造完美脸型的终极指南  N8N自动化营销:无需编程实现AI智能获客  Android图像翻译器应用:技术、应用与未来展望  AI营销软件Top 5:提升业务的终极指南  如何通过 DeepSeek 进行深度神经网络超参数搜索  利用 ChatGPT 设计高效的个人健身与饮食计划  Google AI Studio Build模式更新:免费AI应用开发新纪元  AI超级英雄大乱斗:蜘蛛侠、死侍的爆笑奇幻之旅  DeepSeek 在量化交易策略回测中的实战教程  Character AI深度解析:功能、用户反馈与替代方案全攻略  如何通过文心一言进行地道的文言文翻译  AI落地页优化:3个技巧,转化率飙升!  稿定设计AI抠图怎样处理复杂边缘_稿定设计AI复杂边缘细化技巧【技巧】  Zapier MCP:AI赋能工作流,释放Claude强大潜能  豆包AI帮你写代码注释 豆包AI编程辅助教程  探索Roblox:虚拟角色定制与互动乐园  怎么用AI帮你设计一套个性化的手机App图标?  如何利用文心一言优化知乎高赞回答的逻辑结构  VisualGPT: 免费AI图像生成、编辑及室内设计工具详解  千问怎么使用插件功能_千问插件调用与功能扩展【教程】  AI邮件营销风险解析:如何规避客户触达的潜在陷阱  AI图像生成偏见:克服与优化,打造更真实的数字形象  DeepSeek解释机器学习模型 DeepSeek数据科学学习指南  教你用AI进行角色扮演对话,练习你的沟通和谈判技巧  途牛旅游AI怎样设置抢票提醒_途牛AI抢票提醒时间与频率设置【方法】  AI客服工具:24/7全天候支持业务增长的秘密武器  利用Gen AI和AI Agent进行软件测试:Ollama本地LLM实践  ChatGPT怎么用一键生成读书笔记_ChatGPT笔记生成教程【攻略】  LogMeIn Resolve:IT 运维知识库的 AI 赋能实践  Orkestra Obsolete: 用古董乐器重塑经典“Blue Monday” 

 2024-04-03

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.