视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达


近期,浙江大学ReLER实验室将SAM与视频分割进行深度结合,发布Segment-and-Track Anything (SAM-Track)。

SAM-Track赋予了SAM对视频目标进行跟踪的能力,并支持多种方式(点、画笔、文字)进行交互。

在此基础上,SAM-Track统一了多个传统视频分割任务,达成了一键分割追踪任意视频中的任意目标,将传统视频分割外推至通用视频分割。

SAM-Track具有卓越的性能,在复杂场景下仅需单卡就能高质量地稳定跟踪数百个目标。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

项目地址:https://github.com/z-x-yang/segment-and-track-anything

论文地址:https://arxiv.org/abs/2305.06558

效果展示

SAM-Track支持语言输入作为Prompt。比如,给定类别文本「熊猫」,便可一键实例级分割追踪所有属于「熊猫」这一类别的目标。

也可进一步给出更详细的描述,比如输入文字「最左边的熊猫」,SAM-Track可以定位至特定目标进行分割追踪。

相较于传统视频追踪算法,SAM-Track的另一个强大之处在于可对大量目标同时进行跟踪分割,并自动检测新出现的物体。

SAM-Track还支持多种交互方式组合使用,用户可根据实际需求搭配。比如使用画笔来框定与人体紧密连接的滑板,防止分割多余物体,而后使用点击选择人体。

全自动视频目标分割与追踪自然也不在话下,各种应用场景包括街景、航拍、AR、动画、医学图像等,均可一键分割追踪并自动检测新出现的物体。

如果对自动分割结果不满意,用户可在此基础上进行编辑修正,例如使用点击来修正过分割的电车。

同时最新版本的SAM-Track支持对追踪结果进行在线浏览,可选择中间任意一帧的分割结果进行修改和新增目标,并再次追踪。

为了方便用户线上体验,项目提供了WebUI,可通过Colab一键部署:

模型组成

SAM-Track模型基于ECCV'22 VOT Workshop四个赛道的冠军方案DeAOT。

DeAOT是一个高效的多目标VOS模型,在给定首帧物体标注的情况下,可以对视频其余帧中的物体进行追踪分割。

DeAOT采用一种识别机制,将一个视频中的多个目标嵌入到同一高维空间中,从而实现了同时对多个物体进行追踪。

DeAOT在多物体追踪方面的速度表现能够与其他针对单个物体追踪的VOS方法相媲美。

此外,通过基于分层的Transformer的传播机制,DeAOT更好地聚合了长时序和短时序信息,表现出了优异的追踪性能。

由于DeAOT需要参考帧的标注来初始化,为了提高便捷性,SAM-Track使用了最近在图像分割领域大放异彩的Segment Anything Model(SAM)模型来获取标注信息。

利用SAM出色的零样本迁移能力,以及多种交互方式,SAM-Track能高效地为DeAOT获取高质量的参考帧标注信息。

虽然SAM模型在图像分割领域表现出色,但它无法输出语义标签,且文本提示也不能很好地支持Referring Object Segmentation及其他依赖深层语义理解的任务。

因此,SAM-Track模型进一步集成了Grounding-DINO,实现了高精度的语言引导的视频分割。Grounding DINO是一个开放集合目标检测模型,具有很好的语言理解能力。

根据输入的类别或目标对象的详细描述,Grounding-DINO可以检测到目标并返回位置框。

SAM-Track模型架构

如下图所示,SAM-Track模型支持了三种物体跟踪模式,分别为交互跟踪模式、自动跟踪模式以及融合模式。

对于交互跟踪模式,SAM-Track模型首先会应用SAM,在参考帧中利用点击或画框的方式选中目标,直到得到用户满意的交互分割结果。

如果想要实现语言引导的视频物体分割,SAM-Track则会调用Grounding-DINO根据输入的文本,先得到目标物体的位置框,并在此基础上通过SAM得到感兴趣物体的分割结果。

最后DeAOT将交互分割结果作为参考帧,对选中的目标进行追踪。在追踪的过程中,DeAOT会将过去帧中的视觉嵌入和高维ID嵌入分层传播到当前帧中,实现逐帧追踪分割多个目标对象。因此,SAM-Track能过支持多模态的交互方式来追踪分割视频中的感兴趣物体。

然而,交互跟踪模式无法处理视频中出现的新出现的物体。限制了SAM-Track在特定领域的应用,例如,自动驾驶,智慧城市等。

为了进一步拓展SAM-Track的应用范围和性能,SAM-Track实现了自动跟踪模式,对视频中出现的新物体进行追踪。

自动跟踪模式通过Segment Everything和Object of Interest Segmentation两种方式来获得每n帧中新出现的物体的注释。对于新出现的物体的ID分配问题,SAM-Track采用了比较掩码模块(CMR)来确定新的对象的ID。

融合模式则是把交互跟踪模式和自动跟踪模式相结合。通过交互式跟踪模式用户可以很方便地获取视频中第一帧的注释,而自动跟踪模式则可以处理视频后续帧中出现的未被选中的新对象。追踪方法的组合扩大了SAM-Track的应用范围,增加了SAM-Track的实用性。


# 多个  # 一键  # 自动跟踪  # 是一个  # 新出现  # 很好  # 在此基础上  # 感兴趣  # 实现了  # 法相 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 怎么用AI帮你为初创公司进行市场定位分析?  使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio  Gemini怎样写精准提示词_Gemini提示词编写方法【步骤】  微信AI数字人如何设置工作时间_微信AI数字人时段开关与值班安排【实操】  今日头条AI怎样推荐抢票工具_今日头条AI抢票工具推荐算法与筛选【技巧】  DeepSeek网页版怎么用_DeepSeek网页版使用方法详细指南【教程】  CharSnap AI:终极角色扮演与群聊平台指南  文本分类:生成模型与朴素贝叶斯算法的全面指南  AI视频生成器完全指南:免费工具、教程及最佳实践  AI Sales Assistant:提升销售效率与客户互动的终极指南  2025年AI图像生成指南:Google Gemini Nano Banana教程  MediCa AI:AI赋能的智能医疗保健平台全面解析  Comet浏览器:使用ChatGPT增强您的搜索体验  如何利用 DeepSeek 进行多轮复杂对话的状态管理  kimi如何导出对话_导出对话内容方法【攻略】  Canva AI工具教程:动漫化图像、生成艺术与定制QR码  C3.ai深度解析:投资者必知的关键洞察  2025数据科学学习指南:技能、工具和学习路线图  为什么你的简历过不了筛选?用AI帮你诊断并修复漏洞  看我如何用AI辅助写作,在10分钟内搞0. AI求职信写作避坑指南:千万别犯这几个错误  GitHub Copilot终极指南:提升代码效率与质量  Google Gemini 在跨时区团队管理中的应用技巧  AI超级英雄大乱斗:蜘蛛侠、死侍的爆笑奇幻之旅  Claude如何关闭自动续费_Claude续费关闭方法【方法】  揭秘面部和谐:打造完美脸型的终极指南  歌曲分析:The Killers乐队的《Mr. Brightside》歌词深度解析  Brevio AI:利用AI代理提升电商营销效果  恐怖游戏惊魂:虚拟主播带你逃离病娇女孩的魔爪  2025年43英寸电视选购指南:最佳品牌与型号推荐  轻松创建引人入胜短视频:Riverside.fm教程  教你用AI一键生成Excel VBA脚本,彻底告别重复操作  3步教你用AI将文字转换成语音,实现配音自由  AI视频工具:加速内容创作,提升效率的终极指南  通义千问网页版怎么清历史_通义千问历史清理方法【方法】  怎么用ai进行用户画像分析 AI消费行为与兴趣标签提炼【详解】  ASUS Armoury Crate深度评测:最新功能与个性化定制  AI营销软件Top 5:提升业务的终极指南  ChatGPT官方网页端入口 ChatGPT官网快速登录方法  腾讯混元图像3.0上线LiblibAI,80B参数助力创作者高效出图  如何用AI一键给视频自动加字幕  Z170芯片组内存兼容性问题终极指南  EdrawMax AI:使用人工智能快速创建流程图和图表  利用 ChatGPT 进行复杂数学公式的推导教程  Gamma做年终总结PPT怎么用_Gamma做年终总结PPT使用方法详细指南【教程】  Venggage AI Pitch Deck生成器:快速创建投资者演示文稿  扣子AI如何绑定自有域名_扣子AI域名绑定与SSL配置【步骤】  定价3499炒到1.2万,豆包AI手机遭“封杀”,变革之路何去何从?  客户生命周期价值:终极商业增长策略  AI驱动合同管理:Microsoft Power Platform实战指南  lumen5怎样从新闻稿生成社交视频_Lumen5新闻稿转社交视频步骤【社媒】 

 2023-05-23

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.