剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜



  • 论文链接:https://arxiv.org/abs/2402.08327
  • DEMO 链接:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/
  • 项目主页链接:https://preflmr.github.io/
  • 论文标题:PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers

背景

虽然多模态大模型(如GPT4-Vision、Gemini等)展示了强大的通用图文理解能力,但在处理需要专业知识的问题时表现不如人意。即使是GPT4-Vision,也无法有效回答知识密集型问题(如图一所示),这给许多企业级应用带来了挑战。

gpt4-vision 可以通过 preflmr 多模态知识检索器获取相关知识,并生成准确的答案。图中展示了模型的实际输出结果。

检索增强生成(RAG,Retrieval-Augmented Generation)为解决这个问题提供了一个简单有效的方法,让多模态大模型在某个领域变得像“领域专家”一样。其工作原理如下:首先,利用轻量级知识检索器(Knowledge Retriever)从专业数据库(如Wikipedia或企业知识库)中检索相关的专业知识;接着,大型模型将这些知识与问题一起作为输入,输出准确的答案。多模态知识提取器的知识“召回能力”直接影响着大型模型在回答推理问题时是否能获取准确的专业知识。

近期,剑桥大学信息工程系人工智能实验室完整开源了首个预训练、通用多模态后期交互知识检索器 PreFLMR (Pre-trained Fine-grained Late-interaction Multi-modal Retriever)。相比以往常见的模型,PreFLMR 有以下特点:

PreFLMR是一款通用预训练模型,能有效解决文本检索、图像检索和知识检索等多个子任务。经过百万级多模态数据的预训练,该模型在多个下游检索任务中表现出色。另外,作为一款优秀的基础模型,PreFLMR 经过针对私有数据的微调后,能够迅速发展成为优秀的领域专用模型。

图 2:PreFLMR 模型同时在多项任务上取得极佳的多模态检索表现,是一个极强的预训练基底模型。

2. 传统的密集文本检索(Dense Passage Retrieval, DPR)只使用一个向量表征问询(Query)或文档(Document)。剑桥团队在 NeurIPS 2025 发表的 FLMR 模型证明了 DPR 的单向量表征设计会导致细粒度信息损失,导致 DPR 在需要精细信息匹配的检索任务上表现不佳。尤其是在多模态任务中,用户的问询(Query)包含复杂场景信息,压缩至一维向量极大抑制了特征的表达能力。PreFLMR 继承并改进了 FLMR 的结构,使其在多模态知识检索中有得天独厚的优势。

图 3:PreFLMR 在字符级别(Token level)上编码问询(Query,左侧 1、2、3)和文档(Document,右侧 4),相比于将所有信息压缩至一维向量的 DPR 系统有信息细粒度上的优势。

3.PreFLMR 能够根据用户输入的指令(例如 “提取能用于回答以下问题的文档” 或 “提取与图中物品相关的文档”),从庞大的知识库中提取相关的文档,帮助多模态大模型大幅提升在专业知识问答任务上的表现。


图 4:PreFLMR 可以同时处理图片提取文档、根据问题提取文档、根据问题和图片一起提取文档的多模态问询任务。

剑桥大学团队开源了三个不同规模的模型,模型的参数量由小到大分别为:PreFLMR_ViT-B (207M)、PreFLMR_ViT-L (422M)、PreFLMR_ViT-G (2B),供使用者根据实际情况选取。

除了开源模型 PreFLMR 本身,该项目还在该研究方向做出了两个重要贡献:

  1. 该项目同时开源了一个训练和评估通用知识检索器的大规模数据集,Multi-task Multi-modal Knowledge Retrieval Benchmark (M2KR),包含 10 个在学界中被广泛研究的检索子任务和总计超过百万的检索对。
  2. 在论文中,剑桥大学团队对比了不同大小、不同表现的图像编码器和文本编码器,总结了扩大参数和预训练多模态后期交互知识检索系统的最佳实践,为未来的通用检索模型提供经验性的指导。

下文将简略介绍 M2KR 数据集,PreFLMR 模型和实验结果分析。

M2KR 数据集

为了大规模预训练和评估通用多模态检索模型,作者汇编了十个公开的数据集并将其转换为统一的问题 - 文档检索格式。这些数据集的原本任务包括图像描述(image captioning),多模态对话(multi-modal dialogue)等等。下图展示了其中五个任务的问题(第一行)和对应文档(第二行)。

图 5:M2KR 数据集中的部分知识提取任务

PreFLMR 检索模型

图 6:PreFLMR 的模型结构。问询(Query)被编码为 Token-level 的特征。PreFLMR 对问询矩阵中的每一个向量,找到文档矩阵中的最近向量并计算点积,然后对这些最大点积求和得到最后的相关度。

PreFLMR 模型基于发表于 NeurIPS 2025 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。相比于 DPR,FLMR 和 PreFLMR 用由所有的 token 向量组成的矩阵对文档和问询进行表征。Tokens 包含文本 tokens 和投射到文本空间中的图像 tokens。后期交互(late interaction)是一种高效计算两个表征矩阵之间相关性的算法。具体做法为:对问询矩阵中的每一个向量,找到文档矩阵中的最近向量并计算点积。然后对这些最大点积求和得到最后的相关度。这样,每个 token 的表征都可以显式地影响最终的相关性,以此保留了 token-level 的细粒度(fine-grained)信息。得益于专门的后期交互检索引擎,PreFLMR 在 40 万文档中提取 100 个相关文档仅需 0.2 秒,这极大地提高了 RAG 场景中的可用性。

PreFLMR 的预训练包含以下四个阶段:

  • 文本编码器预训练:首先,在 MSMARCO(一个纯文本知识检索数据集)上预训练一个后期交互文文检索模型作为 PreFLMR 的文本编码器。
  • 图像 - 文本投射层预训练:其次,在 M2KR 上训练图像 - 文本投射层并冻结其它部分。该阶段只使用经过投射的图像向量进行检索,旨在防止模型过度依赖文本信息。
  • 持续预训练:然后,在 E-VQA,M2KR 中的一个高质量知识密集型视觉问答任务上持续训练文本编码器和图像 - 文本投射层。这一阶段旨在提升 PreFLMR 的精细知识检索能力。
  • 通用检索训练:最后,在整个 M2KR 数据集上训练所有权重,只冻结图像编码器。同时,将问询文本编码器和文档文本编码器的参数解锁进行分别训练。这一阶段旨在提高 PreFLMR 的通用检索能力。

同时,作者展示了 PreFLMR 可以在子数据集(如 OK-VQA、Infoseek)上进一步微调以在特定任务上获得更好的检索性能。

实验结果和纵向扩展

最佳检索结果:表现最好的 PreFLMR 模型使用 ViT-G 作为图像编码器和 ColBERT-base-v2 作为文本编码器,总计二十亿参数。它在 7 个 M2KR 检索子任务(WIT,OVEN,Infoseek, E-VQA,OKVQA 等)上取得了超越基线模型的表现。

扩展视觉编码更加有效:作者发现将图像编码器 ViT 从 ViT-B(86M)升级到 ViT-L(307M)带来了显著的效果提升,但是将文本编码器 ColBERT 从 base(110M)扩展到 large(345M)导致表现下降并造成了训练不稳定问题。实验结果表明对于后期交互多模态检索系统,增加视觉编码器的参数带来的回报更大。同时,使用多层 Cross-attention 进行图像 - 文本投射的效果与使用单层相同,因此图像 - 文本投射网络的设计并不需要过于复杂。

PreFLMR 让 RAG 更加有效:在知识密集型视觉问答任务上,使用 PreFLMR 进行检索增强大大提高了最终系统的表现:在 Infoseek 和 EVQA 上分别达到了 94% 和 275% 的效果提升,经过简单的微调,基于 BLIP-2 的模型能够击败千亿参数量的 PALI-X 模型和使用 Google API 进行增强的 PaLM-Bison+Lens 系统。

结论

剑桥人工智能实验室提出的 PreFLMR 模型是第一个开源的通用后期交互多模态检索模型。经过在 M2KR 上的百万级数据预训练,PreFLMR 在多项检索子任务中展现出强劲的表现。M2KR 数据集,PreFLMR 模型权重和代码均可以在项目主页 https://preflmr.github.io/ 获取。

拓展资源

  • FLMR paper (NeurIPS 2025): https://proceedings.neurips.cc/paper_files/paper/2025/hash/47393e8594c82ce8fd83adc672cf9872-Abstract-Conference.html 
  • 代码库:https://github.com/LinWeizheDragon/Retrieval-Augmented-Visual-Question-Answering
  • 英文版博客:https://www.jinghong-chen.net/preflmr-sota-open-sourced-multi/
  • FLMR 简介:https://www.jinghong-chen.net/fined-grained-late-interaction-multimodal-retrieval-flmr/


# palm  # 带来了  # 多个  # 展示了  # 这一  # 剑桥  # 开源  # 后期  # 剑桥大学  # 文档  # 多模  # ai  # https  # 人工智能  # 数据库  # 算法  # github  # 继承  # Token  # html  # gemini 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Claude怎样用提示词控制输出长度_Claude输出长度设置【教程】  Bluecap:加拿大AI会议助手,提升混合办公效率  JSON Prompting: 创造爆款AI广告的秘诀和方法  稿定AI智能设计怎样自动生成电商Banner_稿定AI智能设计Banner生成流程【步骤】  New You KIN Skin Analyzer:焕发肌肤新生的终极指南  DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】  AI 3D建模革命:免费生成高质量模型和纹理  Gamma做年终总结PPT怎么用_Gamma做年终总结PPT使用方法详细指南【教程】  AI动画制作教程:Adobe Express一键语音转动画  轻松创建引人入胜短视频:Riverside.fm教程  智行ai抢票怎么选优先车次_智行ai抢票车次优先级设置技巧【指南】  AI 时代高效开发:版本控制与 AI 协同工作流  探索贝奥武夫:英雄史诗的起源、故事与文化意义  怎么用ai写产品说明书 AI功能介绍与使用步骤详解【实操】  通义千问怎么设置功能偏好_通义千问偏好设置【教程】  找不到百度AI助手入口 最新官网登录入口  3步教你用AI将文字转换成语音,实现配音自由  DeepSeek如何编写Shell脚本 DeepSeek自动化运维指南  如何用AI帮你创作节日贺卡文案?让祝福与众不同  批改网AI检测工具如何对接学校系统_批改网AI检测工具系统对接与数据同步【步骤】  AI客户服务的最新趋势:个性化与情感智能  Azure AI 文本分类指南:自定义模型,提高文本分析精度  豆包AI怎么生成员工成长总结_豆包AI成长指标提取与案例编写【方法】  ChatGPT官方入口 ChatGPT官网网页版访问步骤详解  千问怎么用提示词生成演讲稿_千问演讲稿提示词框架与开场【教程】  HelloData.ai:AI驱动的多户型房地产市场分析平台  谷歌 Gemini AI 助手详解:功能、应用与隐私设置  AI图片生成教程:轻松打造你的专属文化艺术照  豆包AI怎么查看个人主页_管理账号信息与偏好设置  lovemo手机网页版入口 lovemo官网登录网址  AI视频工具:加速内容创作,提升效率的终极指南  暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活  AI如何一键生成PPT大纲_利用AI工具制作演示文稿方法【教程】  豆包AI的发现页面有什么功能_探索热门智能体与话题  AI内容检测与优化:免费工具助你提升内容质量  Speerise亮面体操服测评:舒适与时尚的完美结合  怎么用AI学习新知识?3步教你构建个人知识库  Roblox Studio AI 助手:创意构建与无限可能  雷小兔ai智能写作怎样导入素材_雷小兔ai智能写作素材上传与引用【技巧】  tofai网页版官方入口 tofai官网登录网址  斑马AI能否关联学校教材_斑马AI教材同步与版本匹配【技巧】  美食ASMR:感官盛宴与解压体验  掌握这几个AI提问技巧,帮你出个性化的求职信  深度学习姿态估计:技术、应用与未来趋势全解析  AI驱动保险代理:最佳保险 lead generation 公司与服务  千问AI赚钱指南:新手也能月入破万的实操路径解析!  Claude怎么用新功能会议纪要_Claude纪要生成使用【步骤】  AI Notebooks: 知识工作者的未来?赋能理解与洞察的工具  LeetCode问题解析:移除回文子序列,掌握字符串技巧  AI UGC生成器深度测评:四大工具横向对比分析 

 2024-03-25

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.