TPAMI 2025 | 计算机视觉中基于图神经网络和图Transformers的方法和最新进展

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AIxiv专栏 是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏 接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com
本篇综述工作已被《IEEE 模式分析与机器智能汇刊》（IEEE TPAMI）接收，作者来自三个团队：香港大学俞益洲教授与博士生陈超奇、周洪宇，香港中文大学（深圳）韩晓光教授与博士生吴毓双、许牧天，上海科技大学杨思蓓教授与硕士生戴启元。近年来，由于在图表示学习（graph representation learning）和非网格数据（non-grid data）上的性能优势，基于图神经网络（Graph Neural Networks，GNN）的方法被广泛应用于不同问题并且显著推动了相关领域的进步，包括但不限于数据挖掘（例如，社交网络分析、推荐系统开发）、计算机视觉（例如，目标检测、点云处理）和自然语言处理（例如，关系提取、序列学习）。考虑到图神经网络已经取得了丰硕的成果，一篇全面且详细的综述可以帮助相关研究人员掌握近年来计算机视觉中基于图神经网络的方法的进展，以及从现有论文中总结经验和产生新的想法。可惜的是，我们发现由于图神经网络在计算机视觉中应用非常广泛，现有的综述文章往往在全面性或者时效性上存在不足，因此无法很好的帮助科研人员入门和熟悉相关领域的经典方法和最新进展。同时，如何合理地组织和呈现相关的方法和应用是一个不小的挑战。

论文标题：

A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective

论文地址：

https://arxiv.org/abs/2209.13232（预印版）
https://ieeexplore.ieee.org/document/10638815（IEEE 版）

简介：

尽管基于卷积神经网络（CNN）的方法在处理图像等规则网格上定义的输入数据方面表现出色，研究人员逐渐意识到具有不规则拓扑的视觉信息对于表示学习至关重要，但尚未得到彻底研究。与具有内在连接和节点概念的自然图数据（如社交网络）相比，从规则网格数据构建图缺乏统一的原则且严重依赖于特定的领域知识。另一方面，某些视觉数据格式（例如点云和网格）并非在笛卡尔网格上定义的，并且涉及复杂的关系信息。因此，规则和不规则的视觉数据格式都将受益于拓扑结构和关系的探索，特别是对于具有挑战性的任务，例如理解复杂场景、从有限的经验中学习以及跨领域进行知识传递。

计算机视觉中的图神经网络：

在计算机视觉领域，目前许多与 GNN 相关的研究都有以下两个目标之一：

GNN 和 CNN 主干的混合
用于表示学习的纯 GNN 架构

本综述的结构：

本综述以任务为导向对计算机视觉中基于图神经网络（包括图 Transformers）的方法和最新进展进行了全面且详细的调研。具体来说，我们根据输入数据的模态将图神经网络在计算机视觉中的应用大致划分为五类：

自然图像（二维）
视频
视觉 + 语言
三维数据（例如，点云）
医学影像

结论：

本综述系统性地总结了基于图神经网络的计算机视觉方法的统一数学表达，阐明了我们组织这些文章的逻辑关系，突出了该领域的关键挑战，展示了图神经网络在应对这些挑战的独特优势，并讨论了它的局限和未来发展路线。

图神经网络发展史GNN 最初以循环 GNN 的形式发展，用于从有向无环图中提取节点表示。随着研究的发展，GNN 逐渐扩展到更多类型的图结构，如循环图和无向图。受到深度学习中 CNN 的启发，研究人员开发了将卷积概念推广到图域的方法，主要包括基于频域的方法和基于空域的方法。频域方法依赖于图的拉普拉斯谱来定义图卷积，而空域方法则通过聚合节点邻居的信息来实现图卷积。这些方法为处理复杂的图结构和不规则拓扑提供了有效的工具，极大地推动了 GNN 在多个领域，尤其是计算机视觉中的应用和发展。

具体来说，我们详尽地调查了如下这些任务：

基于二维自然图像的视觉任务，包括图像分类（多标签、少量镜头、零镜头、迁移学习）、物体检测、语义分割和场景图生成。
基于视频的视觉任务，包括视频动作识别、时序动作定位、多目标跟踪、人体运动预测和轨迹预测。
视觉 + 语言方向的任务，包括视觉问答、视觉定位、图像字幕、图像-文本匹配和视觉-语言导航。
基于三维数据的视觉任务，包括三维表示学习（点云、网格）、三维理解（点云分割、三维物体检测、三维视觉定位）和三维生成（点云完成、三维数据去噪、三维重建）。
基于医学影像的任务，包括脑活动调查、疾病诊断（脑部疾病、胸部疾病）、解剖分割（脑表面、血管等）。

总结来说，尽管在感知领域取得了突破性的进展，如何赋予深度学习模型推理能力仍然是现代计算机视觉系统面临的巨大挑战。在这方面，图神经网络和图 Transformers 在处理“关系”任务方面表现出了显著的灵活性和优越性。为此，我们从面向任务的角度首次对计算机视觉中的图神经网络和图 Transformers 进行了全面的综述。各种经典和最新的算法根据输入数据的模态（如图像、视频和点云）分为五类。通过系统地整理每个任务的方法，我们希望本综述能够为未来的更多进展提供启示。通过讨论关键的创新、局限性和潜在的研究方向，我们希望读者能够获得新的见解，并朝着类似人类的视觉理解迈进一步。

# 社交网络 # 架构 # 循环 # 算法 # cnn # https # 笛卡尔 # 推动了 # 云和 # 进行了 # 五类 # 的是 # 数年 # 拉普拉斯 # 是一个 # 取得了