无编码器架构潜力或被低估,首个无编码器3D多模态LLM大模型来了


aixiv专栏:探索无编码器架构在3d大型多模态模型中的潜力

AIxiv专栏持续报道全球顶尖AI研究成果,已收录2000余篇来自高校和企业实验室的学术技术文章。欢迎投稿或联系报道,投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

作者简介: 本文第一作者汤轶,上海科技大学本科毕业,师从李学龙教授,并在上海人工智能实验室实习。研究方向涵盖3D视觉、大模型高效迁移、多模态大模型和具身智能等,代表作包括Any2Point, Point-PEFT, ViewRefer等。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文标题: 探究无编码器架构在3D大型多模态模型中的潜力
  • 作者单位: 上海人工智能实验室,西北工业大学,香港中文大学,清华大学
  • 代码链接: https://www./link/e685b42794dde47c8d8304eb462cc3ae
  • 论文链接: https://www./link/75291728e2d8458a104b6abd0b062b70

近年来,大型多模态模型(LMMs)研究蓬勃发展,旨在赋予大型语言模型(LLMs)解读多模态信息的能力,例如2D图像(LLaVA)和3D点云(Point-LLM, PointLLM, ShapeLLM)。主流LMMs通常依赖强大的多模态编码器(如2D的CLIP和3D的I2P-MAE),虽然这些预训练编码器提供了丰富的预先知识,但也存在局限性,例如难以适应不同点云分辨率,以及编码器提取的特征可能无法满足LLMs的语义需求。

为此,研究人员首次系统性地研究了无编码器架构在3D LMMs中的应用潜力,直接将3D编码器的功能集成到LLM中。他们提出了首个无编码器架构的3D LMM——ENEL,其7B参数模型性能与当前最先进的ShapeLLM-13B相当,展现了无编码器架构的巨大潜力。

研究背景与动机

基于编码器的3D LMMs架构存在以下不足:

  1. 点云分辨率限制: 3D编码器通常在固定分辨率的点云上预训练,例如PointLLM的Point-BERT使用1024个点。然而,推理过程中的点云分辨率可能变化,导致信息丢失。ENEL在不同分辨率下表现出更强的鲁棒性。
  2. 嵌入语义差异: 3D编码器与LLMs的训练目标可能不一致,导致无法捕捉LLMs理解3D物体所需的语义信息。

技术方案

研究人员以PointLLM为基准模型,使用GPT-4评分标准在Objaverse数据集上评估不同策略。他们提出了两个关键问题:如何弥补3D编码器缺失的高层语义信息,以及如何将归纳偏置整合到LLM中以更好地感知3D几何结构。

LLM嵌入式语义编码

由于缺乏3D编码器,点云语义信息编码不足。研究人员评估了四种自监督学习损失(掩蔽建模、重建、对比学习和知识蒸馏)对无编码器3D LMM的影响,并提出了混合语义损失(Hybrid Semantic Loss),结合掩蔽建模和重建策略,有效地将高层语义嵌入LLM中,并保持几何一致性。

层次几何聚合策略

为了使LLM主动感知3D局部细节,研究人员提出了层次几何聚合策略,通过最远点采样、k-NN算法、门控自注意力机制和池化操作,逐步聚合局部几何信息,并通过几何传播将信息传递回整个点云。

实验结果

ENEL-7B在Objaverse基准测试中取得了显著成果,在3D物体描述和分类任务中均超越了之前的基于编码器的3D LMMs,并在3D-VQA任务上也表现出色。

实现细节

研究人员使用了7B Vicuna v1.1检查点,并详细描述了模型的嵌入层、训练过程(包括预训练和指令微调)、以及使用的硬件和软件配置。

这项工作为3D大型多模态模型的研究提供了新的方向,展现了无编码器架构的巨大潜力。


# 多模  # 所需  # 展现了  # 首次  # 出了  # 清华大学  # 门控  # 并在  # 上海  # 提出了  # git  # gpt  # https  # bert  # 人工智能  # 算法  # github  # 架构  # 邮箱  # ai 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 百度输入法怎么去除ai模块 百度输入法纯净版安装教程  VoiceBrigade:AI 赋能,革新语音合成与内容创作  VHEER AI:免费在线AI图像生成器终极指南  可灵ai怎么生成招聘JD文案_可灵aiJD生成要素与岗位描述优化【技巧】  AI虚拟网红打造指南:轻松制作专属社交媒体形象  如何用ChatGPT准备面试 模拟面试问答与职场话术练习教程  千问如何切换回答风格_千问风格选择正式口语等【实操】  AI生成克里希纳短视频:一步步教程,快速爆款!  Android图像翻译器应用:技术、应用与未来展望  利用 DeepSeek 提高敏捷开发中的 Sprint 规划效率  AI|直播|话术生成工具有哪些_一键生成带货话术的AI工具推荐  ChatGPT怎样用提示词设上下文_ChatGPT上下文设置技巧【方法】  ChatGPT助力QA测试:提升效率与质量的终极指南  ChatGPT写论文大纲教程 辅助学术构思与资料检索操作方法  AI如何革新心理健康诊断:从症状检查到大脑分析  百度输入法ai模式怎么关 百度输入法恢复普通模式  利用MECLABS AI解决业务难题:实用指南  Z170芯片组内存兼容性问题终极指南  百度ai助手怎么取消 百度ai助手取消显示设置  机器学习赋能AI生产力工具:提升效率与智能决策  LTX Studio:AI电影制作平台深度评测与应用指南  如何通过 DeepSeek 进行深度神经网络超参数搜索  暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活  3步教你用AI帮你把菜谱转换成详细的烹饪步骤视频脚本  OpenAI DevDay 2025:开发者必知的七大AI进展  千问怎么使用插件功能_千问插件调用与功能扩展【教程】  在线奇幻名称生成器:打造独一无二的角色名  播客数据深度分析:用户地域分布及增长策略探讨  AI如何变革法律行政助理角色?未来发展趋势分析  BeFunkyAI排版怎么给图片加艺术字_BefunkyAI排版艺术字添加与样式调整【指南】  钉钉ai划词工具怎么使用划词查词_钉钉ai划词工具查词入口与释义查看【指南】  Midjourney怎样生成网页_Midjourney生成网页教程【方法】  批改网ai检测工具怎么设置检测严格度_批改网ai检测工具严格度调整【技巧】  New You KIN Skin Analyzer:焕发肌肤新生的终极指南  批改网AI检测工具如何对接学校系统_批改网AI检测工具系统对接与数据同步【步骤】  Motion 教程:AI 驱动的智能日程安排,提高工作效率  教你用AI将一篇长文自动拆解成社交媒体帖子,实现一文多发  AI照片编辑终极指南:一键打造潮流图像  AI视频生成器完全指南:免费工具、教程及最佳实践  想做自媒体?教你用AI批量生成视频脚本,实现内容自由  软件工程师必备的AI工具:提升效率的六款利器  教你用AI帮你生成一份详细的搬家清单,告别手忙脚乱  Midjourney怎样生成网页图标_Midjourney图标生成教程【方法】  深度学习姿态估计:技术、应用与未来趋势全解析  Django与React构建AI音乐推荐:数据库集成实战指南  DeepSeek是免费使用的吗 DeepSeek收费模式与Pro版本功能详解  AI UGC生成器深度测评:四大工具横向对比分析  教你用AI快速制作思维导图,3步理清所有工作思路  AI产品经理:AI赋能与AI原生,未来PM的技能演进  WorkPPT:AI驱动的PPT制作神器,效率提升不止10倍! 

 2025-02-27

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.