2025年电信AI公司顶会论文及竞赛分享


近年来,中国电信在人工智能技术方向持续努力。2025年11月28日,中国电信数字智能科技分公司正式更名为中电信人工智能科技有限公司(以下简称“电信ai公司”)。2025年,电信ai公司在21项国内外顶级ai竞赛中连续获奖,申请了100多项专利,并在cvpr、acm mm、iccv等顶级会议和期刊上发表了30多篇论文,展现了国资央企在人工智能技术领域布局的初步成果

作为中国电信开展人工智能业务的专业公司,电信AI公司是一家科技型、能力型和平台型企业。公司致力于攻克人工智能核心技术、研究前沿技术和推进产业空间拓展,旨在成为一个百亿级别的人工智能服务商。在过去的两年中,电信AI公司成功地自主研发了一系列创新应用成果,如星河AI算法仓赋能平台、星云AI四级算力平台和星辰通用基础大模型等。现在,公司拥有800多名员工,平均年龄31岁,其中80%为研发人员,70%来自于国内外互联网大厂和AI头部企业。为了加速大模型时代的研发进展,公司拥有2500多个A100等效算力的训练卡以及300多名专职的数据标注人员。同时,公司还联合上海人工智能实验室、西安交通大学、北京邮电大学和智源研究院等科研机构,面向中国电信的6000万视联网和数亿用户场景,共同打造国际一流的人工智能技术和应用

接下来,我们将回顾和分享电信AI公司在2025年取得的一些重要科研成果。本次分享将介绍AI研发中心CV算法团队在ICCV 2025赛事中获得Temporal Action Localisation赛道冠军的技术成果。ICCV是国际计算机视觉领域的三大顶级会议之一,每两年举办一次,业内评价极高。本文将分享该团队在此次挑战中所采用的算法思路和方案

ICCV 2025感知测试挑战-时间动作定位冠军技术分享

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

比赛概况和团队背景

DeepMind发起的ICCV 2025首届感知测试挑战旨在评估模型在视频、音频和文本模态中的能力。该竞赛涵盖了四个技能领域、四种推理类型和六个计算任务,以全面评估多模态感知模型的能力。其中,Temporal Action Localisation赛道的核心任务是对未剪辑的视频内容进行深入理解和准确的动作定位,该技术对自动驾驶系统、视频监控分析等多种应用场景具有重要意义

本次比赛中,参赛团队由电信AI公司交通算法方向的成员组成,该团队名为CTCV。电信AI公司在计算机视觉技术领域深入研究,并积累了丰富的经验。其技术成果已在城市治理、交通治安等多个业务领域广泛应用,并持续服务海量用户

引言是一篇文章的开头部分,旨在引起读者的兴趣并提供背景信息。一个好的引言可以吸引读者的注意力,概括文章的主题,并激发读者继续阅读的欲望。在写引言时,需要注意语言简洁明了,内容准确有力。引言的目的是为了引导读者进入文章的主题,因此需要引用相关的事实、数据或引人思考的问题。总之,引言是文章的门户,可以决定读者是否继续阅读下去

视频理解中的一个挑战性问题是在视频中定位和分类动作的任务,即时序动作定位(Temporal Action Localisation, TAL)

TAL技术近期取得了显著进展。举例来说,TadTR和ReAct采用了类似DETR的基于Transformer的解码器来进行动作检测,将动作实例建模为一组可学习的集合。而TallFormer则利用基于Transformer的编码器来提取视频表征

尽管以上方法在时序动作定位方面已经取得了良好的效果,但在视频感知能力方面存在一些限制。要更好地定位动作实例,可靠的视频特征表达是关键。我们的团队首先采用VideoMAE-v2框架,加入adapter+linear层,训练了具有两种不同主干网络的动作类别预测模型,并使用模型分类层前一层进行TAL任务的特征提取。接下来,我们利用改进的ActionFormer框架训练了TAL任务,并修改了WBF方法以适应TAL任务。最终,我们的方法在评测集上实现了0.50的mAP,排名第一,领先第二名的团队3个百分点,比Google DeepMind提供的基准模型高出34个百分点

2 竞赛解决方案

算法概览如下图所示:

2.1 数据增强

在Temporal Action Localisation赛道中,CTCV团队使用的数据集是未经修剪的用于动作定位的视频,具有高分辨率,并且包含多个动作实例的特点。通过分析数据集,发现训练集相较于验证集缺少了三个类别的标签。为了保证模型验证的充分性以及满足竞赛的要求,团队采集了少量的视频数据,并将其加入训练数据集中,以丰富训练样本。同时为了简化标注过程,每个视频预设只包含一个动作

请参考图2中自主采集的视频样例

2.2 动作识别和特征提取

近年来,出现了许多基于大规模数据训练的基础模型,这些模型通过零样本识别、线性探测、提示微调、微调等方法,将基础模型的强大泛化能力应用到多个下游任务中,有效推动了人工智能领域的多个方面的进步

TAL赛道中的动作定位和识别十分具有挑战性。例如,"假装将某物撕成碎片"和"将某物撕成碎片"这两个动作非常相似,这无疑给特征层面带来了更大的挑战。因此,直接使用现有的预训练模型提取特征的效果并不理想

因此,我们团队通过解析JSON标注文件,将TAL数据集转换为动作识别数据集。然后,我们以Vit-B和Vit-L为主干网络,在VideoMAE-v2网络后增加adapter层和用于分类的linear层,训练同数据域下的动作分类器。我们还将动作分类模型去掉linear层,用于视频特征的提取。VitB模型的特征维度为768,而ViTL模型的特征维度为1024。当我们同时将这两种特征进行concat时,我们生成了一个新的特征,维度为1792,这个特征将作为训练时序动作定位模型的备选。在训练的初期,我们尝试了音频特征,但实验结果发现mAP指标有所下降。因此,在随后的实验中,我们没有考虑音频特征

2.3 时序动作定位

Actionformer是一个以时间为序的动作定位设计的anchor-free模型。它融合了多尺度特征和时间维度的局部自注意力。在本次竞赛中,CTCV团队选择Actionformer作为动作定位的基准模型,用于预测动作发生的边界(起止时间)和类别

CTCV团队对动作边界回归和动作分类任务进行了统一处理。相对于基线训练结构,首先将视频特征编码到多尺度的Transformer中。然后在模型的回归和分类的head分支中引入了特征金字塔层,以增强网络特征表达能力,每个时间步骤的head分支会生成一个动作候选。同时,通过增加head数量到32,并引入fpn1D结构,进一步提升了模型的定位和识别能力

1-D的2.4 WBF

加权盒子融合(Weighted Boxes Fusion,简称WBF)是一种创新的检测框融合方法。该方法利用所有检测框的置信度来构造最终的预测框,在图像目标检测中表现出了不错的效果。与NMS和soft-NMS方法不同,加权盒子融合不会舍弃任何预测结果,而是利用所有提出的边界框的置信度分数来构造平均的盒子。这种方法大大提高了预测矩形的准确性

在WBF的启发下,CTCV团队将动作的一维边界框类比为一维线段,并对WBF方法进行了修改,使其适用于TAL任务。实验结果显示该方法的有效性,如图3所示

改进后的一维WBF示意图如图3所示

3 实验结果

3.1 评估指标。 评估标准

评估指标是mAP,用于本次挑战赛。mAP是通过计算不同动作类别和IoU阈值的平均精确度来确定的。CTCV团队以0.1的增量评估IoU阈值,范围从0.1到0.5

3.2 实验细节重写如下:

为了得到多样化的模型,CTCV团队对训练数据集进行了80%的重复采样,总共进行了5次。分别采用了Vit-B、Vit-L和concat的特征进行模型训练,成功得到了15个多样化的模型。最终,这些模型的评估结果被输入到WBF模块,并为每个模型结果分配了相同的融合权重

实验结果如下所示:

表1中显示了不同特征的性能比较。第一行和第二行展示了使用ViT-B和ViT-L特征的结果。第三行展示了ViT-B和ViT-L特征级联的结果

在实验过程中,CTCV团队发现级联特征的平均精确度(mAP)略低于ViT-L,但仍优于ViT-B。尽管如此,通过在验证集上的各种方法表现,我们将不同特征在评测集的预测结果借助WBF进行融合,最终提交到系统的mAP为0.50

需要重新改写的内容是:4 结论

CTCV团队在本次竞赛中采取了多项策略来提升性能。首先,他们通过数据收集来增强验证集中缺失的类别的训练数据。其次,他们利用VideoMAE-v2框架加入adapter层来训练视频特征提取器,并通过改进的ActionFormer框架来训练TAL任务。此外,他们还修改了WBF方法以有效地融合测试结果。最终,CTCV团队在评测集上取得了0.50的mAP,名列第一。 电信AI公司一直秉持着“技术从业务中来,到业务中去”的发展理念。他们将竞赛视为检验和提升技术能力的重要平台,并通过参与竞赛不断优化和完善技术方案,为客户提供更高质量的服务。同时,参与竞赛也为团队成员提供了宝贵的学习和成长机会


# json  # map  # 算法  # 人工智能  # transformer  # 多个  # 中国电信  # 所示  # 进行了  # 取得了  # 采用了  # 多名  # 多项  # 如图  # 是一个 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 百度AI搜索怎么用语音提问_百度AI搜索语音输入与识别优化【指南】  百度输入法ai组件怎么删除 百度输入法ai组件移除工具  2025年10月狮子座运势:事业、爱情与生活指南  AI面试作弊与反作弊:求职者与企业的博弈  百度AI对话助手入口 智能聊天机器人入口  韵律分析:为什么理解音乐歌词的韵式至关重要?  ChatGPT怎么写工作汇报 职场办公效率提升与周报生成方法  Postman Flows:构建智能AI驱动型工作流完全指南  PixianAI抠图如何导出PSD_PixianAI分层导出与PSD保存设置【实操】  Claude怎么用新功能代码辅助_Claude代码辅助使用攻略【方法】  AI Notebooks: 知识工作者的未来?赋能理解与洞察的工具  百度AI助手网页版入口 免安装直接打开入口  精选AI销售工具:提升业绩的终极指南(2025年最新)  3步教你用AI将你的照片变成乐高积木风格  Claude 4.5 深度解析: Coding, VS Code & AI Agent 新纪元  2025数据科学学习指南:技能、工具和学习路线图  AI工作流程详解:概念到生产的完整指南  SEO必备工具:网站分析与优化终极指南  美食ASMR:感官盛宴与解压体验  tofai免费网页版入口 tofai官网手机版网站  SnappaAI排版如何生成社交媒体图_SnappaAI排版社媒图尺寸与风格选择【技巧】  AI赋能副业:五大掘金机会,轻松开启智能创收时代  智行ai抢票能否跨站抢票_智行ai抢票跨站抢票开启与规则【教程】  百度输入法全感官ai怎么关 百度输入法全感官皮肤关闭  斑马AI能否查看孩子学习报告_斑马AI报告查看与数据解读【方法】  ChatGPT 处理非结构化数据并转换为 JSON 格式  Google Gemini 处理结构化 XML 数据转换教程  即梦ai能否生成节日主题插画_即梦ai节日主题关键词与元素库使用【攻略】  如何通过 DeepSeek 优化 Kubernetes 配置文件  AI虚拟网红打造指南:轻松制作专属社交媒体形象  夸克AI怎么用AI写作_夸克AI写作功能与模板选择【指南】  小米汽车OTA冬季大版本升级:新增和优化共计9项功能  Feelin网页版在线使用 Feelin官网登录入口  批改网AI检测工具怎样批量检测作文_批改网AI检测工具批量上传与处理流程【攻略】  豆包 AI 在英语单词高效背诵中的趣味应用  人脸识别的伦理困境:Massive Attack的演出引发的思考  佐糖AI抠图如何免费使用_佐糖AI免费额度获取与消耗查看【指南】  AI赋能建筑合同管理:ChatGPT实用案例深度解析  探索都市传说:追寻鳄鱼飞机怪物“Bombardino Crocodilo”  定价3499炒到1.2万,豆包AI手机遭“封杀”,变革之路何去何从?  千问如何生成年终总结PPT_千问PPT模板选择与内容自动填充【攻略】  怎么用AI帮你为初创公司进行市场定位分析?  AI 编码助手:提升效率的 5 大工具及应用详解  使用Agent AI Book Cover Creator轻松设计吸睛图书封面  AI症状自检:最佳AI症状检查器,告别网络庸医!  Z270 Mini-ITX主板全面评测:为Skylake和Kaby Lake打造迷你主机  利用MECLABS AI解决业务难题:实用指南  消除噪音,提升音质:Audo.ai终极指南  DeepSeek 辅助进行 Linux 内核参数调优教程  银行对账单解读完全指南:掌握财务状况,优化资金管理 

 2024-01-11

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.