aixiv专栏:探索无编码器架构在3d大型多模态模型中的潜力
AIxiv专栏持续报道全球顶尖AI研究成果,已收录2000余篇来自高校和企业实验室的学术技术文章。欢迎投稿或联系报道,投稿邮箱:liyazhou@jiqizhixi
n.com;zhaoyunfeng@jiqizhixin.com
作者简介: 本文第一作者汤轶,上海科技大学本科毕业,师从李学龙教授,并在上海人工智能实验室实习。研究方向涵盖3D视觉、大模型高效迁移、多模态大模型和具身智能等,代表作包括Any2Point, Point-PEFT, ViewRefer等。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
近年来,大型多模态模型(LMMs)研究蓬勃发展,旨在赋予大型语言模型(LLMs)解读多模态信息的能力,例如2D图像(LLaVA)和3D点云(Point-LLM, PointLLM, ShapeLLM)。主流LMMs通常依赖强大的多模态编码器(如2D的CLIP和3D的I2P-MAE),虽然这些预训练编码器提供了丰富的预先知识,但也存在局限性,例如难以适应不同点云分辨率,以及编码器提取的特征可能无法满足LLMs的语义需求。
为此,研究人员首次系统性地研究了无编码器架构在3D LMMs中的应用潜力,直接将3D编码器的功能集成到LLM中。他们提出了首个无编码器架构的3D LMM——ENEL,其7B参数模型性能与当前最先进的ShapeLLM-13B相当,展现了无编码器架构的巨大潜力。
研究背景与动机
基于编码器的3D LMMs架构存在以下不足:
技术方案
研究人员以PointLLM为基准模型,使用GPT-4评分标准在Objaverse数据集上评估不同策略。他们提出了两个关键问题:如何弥补3D编码器缺失的高层语义信息,以及如何将归纳偏置整合到LLM中以更好地感知3D几何结构。
LLM嵌入式语义编码
由于缺乏3D编码器,点云语义信息编码不足。研究人员评估了四种自监督学习损失(掩蔽建模、重建、对比学习和知识蒸馏)对无编码器3D LMM的影响,并提出了混合语义损失(Hybrid Semantic Loss),结合掩蔽建模和重建策略,有效地将高层语义嵌入LLM中,并保持几何一致性。
层次几何聚合策略
为了使LLM主动感知3D局部细节,研究人员提出了层次几何聚合策略,通过最远点采样、k-NN算法、门控自注意力机制和池化操作,逐步聚合局部几何信息,并通过几何传播将信息传递回整个点云。
实验结果
ENEL-7B在Objaverse基准测试中取得了显著成果,在3D物体描述和分类任务中均超越了之前的基于编码器的3D LMMs,并在3D-VQA任务上也表现出色。
实现细节
研究人员使用了7B Vicuna v1.1检查点,并详细描述了模型的嵌入层、训练过程(包括预训练和指令微调)、以及使用的硬件和软件配置。
这项工作为3D大型多模态模型的研究提供了新的方向,展现了无编码器架构的巨大潜力。
# 多模
# 所需
# 展现了
# 首次
# 出了
# 清华大学
# 门控
# 并在
# 上海
# 提出了
# git
# gpt
# https
# bert
# 人工智能
# 算法
# github
# 架构
# 邮箱
# ai
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
百度输入法怎么去除ai模块 百度输入法纯净版安装教程
VoiceBrigade:AI 赋能,革新语音合成与内容创作
VHEER AI:免费在线AI图像生成器终极指南
可灵ai怎么生成招聘JD文案_可灵aiJD生成要素与岗位描述优化【技巧】
AI虚拟网红打造指南:轻松制作专属社交媒体形象
如何用ChatGPT准备面试 模拟面试问答与职场话术练习教程
千问如何切换回答风格_千问风格选择正式口语等【实操】
AI生成克里希纳短视频:一步步教程,快速爆款!
Android图像翻译器应用:技术、应用与未来展望
利用 DeepSeek 提高敏捷开发中的 Sprint 规划效率
AI|直播|话术生成工具有哪些_一键生成带货话术的AI工具推荐
ChatGPT怎样用提示词设上下文_ChatGPT上下文设置技巧【方法】
ChatGPT助力QA测试:提升效率与质量的终极指南
ChatGPT写论文大纲教程 辅助学术构思与资料检索操作方法
AI如何革新心理健康诊断:从症状检查到大脑分析
百度输入法ai模式怎么关 百度输入法恢复普通模式
利用MECLABS AI解决业务难题:实用指南
Z170芯片组内存兼容性问题终极指南
百度ai助手怎么取消 百度ai助手取消显示设置
机器学习赋能AI生产力工具:提升效率与智能决策
LTX Studio:AI电影制作平台深度评测与应用指南
如何通过 DeepSeek 进行深度神经网络超参数搜索
暖心“小艺通话”:让语障人士告别沟通困境,拥抱平等生活
3步教你用AI帮你把菜谱转换成详细的烹饪步骤视频脚本
OpenAI DevDay 2025:开发者必知的七大AI进展
千问怎么使用插件功能_千问插件调用与功能扩展【教程】
在线奇幻名称生成器:打造独一无二的角色名
播客数据深度分析:用户地域分布及增长策略探讨
AI如何变革法律行政助理角色?未来发展趋势分析
BeFunkyAI排版怎么给图片加艺术字_BefunkyAI排版艺术字添加与样式调整【指南】
钉钉ai划词工具怎么使用划词查词_钉钉ai划词工具查词入口与释义查看【指南】
Midjourney怎样生成网页_Midjourney生成网页教程【方法】
批改网ai检测工具怎么设置检测严格度_批改网ai检测工具严格度调整【技巧】
New You KIN Skin Analyzer:焕发肌肤新生的终极指南
批改网AI检测工具如何对接学校系统_批改网AI检测工具系统对接与数据同步【步骤】
Motion 教程:AI 驱动的智能日程安排,提高工作效率
教你用AI将一篇长文自动拆解成社交媒体帖子,实现一文多发
AI照片编辑终极指南:一键打造潮流图像
AI视频生成器完全指南:免费工具、教程及最佳实践
想做自媒体?教你用AI批量生成视频脚本,实现内容自由
软件工程师必备的AI工具:提升效率的六款利器
教你用AI帮你生成一份详细的搬家清单,告别手忙脚乱
Midjourney怎样生成网页图标_Midjourney图标生成教程【方法】
深度学习姿态估计:技术、应用与未来趋势全解析
Django与React构建AI音乐推荐:数据库集成实战指南
DeepSeek是免费使用的吗 DeepSeek收费模式与Pro版本功能详解
AI UGC生成器深度测评:四大工具横向对比分析
教你用AI快速制作思维导图,3步理清所有工作思路
AI产品经理:AI赋能与AI原生,未来PM的技能演进
WorkPPT:AI驱动的PPT制作神器,效率提升不止10倍!
2025-02-27
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。