小红书搜索团队揭示:验证负样本在大规模模型蒸馏中的重要性


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大语言模型(llms)在推理任务上表现出色,但其黑盒属性和庞大参数量限制了其在实践中的应用。特别是在处理复杂的数学问题时,llms有时会出现错误的推理链。传统的研究方法仅从正样本中迁移知识,忽略了合成数据中带有错误答案的重要信息。因此,为了提高llms的性能和可靠性,我们需要更加全面地考虑和利用合成数据,不仅仅局限于正样本,以帮助llms更好地理解和推理复杂问题。这将有助于解决llms在实践中的挑战,推动其广泛应用。

在 AAAI 2025 上,小红书搜索算法团队提出了一个创新框架,在蒸馏大模型推理能力的过程中充分利用负样本知识。负样本,即那些在推理过程中未能得出正确答案的数据,虽常被视为无用,实则蕴含着宝贵的信息。

论文提出并验证了负样本在大模型蒸馏过程中的价值,构建一个模型专业化框架:除了使用正样本外,还充分利用负样本来提炼 LLM 的知识。该框架包括三个序列化步骤,包括负向协助训练(NAT)负向校准增强(NCE)动态自洽性(ASC),涵盖从训练到推理的全阶段过程。通过一系列广泛的实验,我们展示了负向数据在 LLM 知识蒸馏中的关键作用。

一、背景

在当前情况下,思维链(CoT)的引导下,大型语言模型(LLMs)展现出了强大的推理能力。然而,我们已经证明,这种涌现能力只有具备千亿级参数的模型才能够实现。由于这些模型需要巨大的计算资源和高昂的推理成本,它们在资源受限的情况下很难应用。因此,我们的研究目标是开发出能够进行复杂算术推理的小型模型,以便在实际应用中进行大规模部署。

知识蒸馏提供了一种有效的方法,可以将 LLMs 的特定能力迁移到更小的模型中。这个过程也被称为模型专业化(model specialization),它强制小模型专注于某些能力。先前的研究利用 LLMs 的上下文学习(ICL)来生成数学问题的推理路径,并将其作为训练数据,有助于小模型获得复杂推理能力。然而,这些研究只使用了生成的具有正确答案的推理路径(即正样本)作为训练样本,忽略了在错误答案(即负样本)的推理步骤中有价值的知识。因此,研究者们开始探索如何利用负样本中的推理步骤,以提高小模型的性能。 一种方法是使用对抗训练,即引入一个生成器模型来生成错误答案的推理路径,然后将这些路径与正样本一起用于训练小模型。这样,小模型可以学习到在错误推理步骤中的有价值的知识,并提高其推理能力。另一种方法是利用自监督学习,通过将正确答案与错误答案进行对比,让小模型学习区分它们,并从中提取有用的信息。这些方法都可以为小模型提供更全面的训练,使其具备更强大的推理能力。 总之,利用负样本中的推理步骤可以帮助小模型获得更全面的训练,提高其推理能力。这种

图片

如图所示,表 1 展示了一个有趣的现象:分别在正、负样本数据上训练的模型,在 MATH 测试集上的准确答案重叠非常小。尽管负样本训练的模型准确性较低,但它能够解决一些正样本模型无法正确回答的问题,这证实了负样本中包含着宝贵的知识。此外,负样本中的错误链路能够帮助模型避免犯类似错误。另一个我们应该利用负样本的原因是 OpenAI 基于 token 的定价策略。即使是 GPT-4,在 MATH 数据集上的准确性也低于 50%,这意味着如果仅利用正样本知识,大量的 token 会被浪费。因此,我们提出:相比于直接丢弃负样本,更好的方式是从中提取和利用有价值的知识,以增强小模型的专业化。

模型专业化过程一般可以概括为三个步骤:

1)思维链蒸馏(Chain-of-Thought Distillation),使用 LLMs 生成的推理链训练小模型。

2)自我增强(Self-Enhancement),进行自蒸馏或数据自扩充,以进一步优化模型。

3)自洽性(Self-Consistency)被广泛用作一种有效的解码策略,以提高推理任务中的模型性能。

在这项工作中,我们提出了一种新的模型专业化框架,该框架可以全方位利用负样本,促进从 LLMs 提取复杂推理能力。

  • 我们首先设计了负向协助训练(NAT)方法,其中 dual-LoRA 结构被设计用于从正向、负向两方面获取知识。作为一个辅助模块,负向 LoRA 的知识可以通过校正注意力机制,动态地整合到正向 LoRA 的训练过程中。
  • 对于自我增强,我们设计了负向校准增强(NCE),它将负向输出作为基线,以加强关键正向推理链路的蒸馏。
  • 除了训练阶段,我们还在推理过程中利用负向信息。传统的自洽性方法将相等或基于概率的权重分配给所有候选输出,导致投票出一些不可靠的答案。为了缓解该问题,提出了动态自洽性(ASC)方法,在投票前进行排序,其中排序模型在正负样本上进行训练的。

二、方法

我们提出的框架以 LLaMA 为基础模型,主要包含三个部分,如图所示:

  • 步骤 1 :对负向 LoRA 进行训练,通过合并单元帮助学习正样本的推理知识;
  • 步骤 2 :利用负向 LoRA 作为基线来校准自我增强的过程;
  • 步骤 3 :在正样本和负样本上训练排名模型,在推理过程中根据其得分,自适应地对候选推理链路进行加权。

图片

2.1 负向协助训练(NAT)

我们提出了一个两阶段的负向协助训练(NAT)范式,分为负向知识吸收动态集成单元两部分:

2.1.1 负向知识吸收

通过在负数据 

 上最大化以下期望,负样本的知识被 LoRA  θ

 吸收。在这个过程中,LLaMA 的参数保持冻结。

图片

2.1.2 动态集成单元

由于无法预先确定 θ

 擅长哪些数学问题,我们设计了如下图所示的动态集成单元,以便在  学习正样本知识的过程中,动态集成来自 θ

 的知识:

图片

我们冻结 θ

 以防止内部知识被遗忘,并额外引入正 LoRA 模块 θ 。理想情况下,我们应该正向集成正负 LoRA 模块(在每个 LLaMA 层中输出表示为  与  ),以补充正样本中所缺乏但对应  所具有的有益知识。当  θ

 包含有害知识时,我们应该对正负 LoRA 模块进行负向集成,以帮助减少正样本中可能的不良行为。

我们提出了一种纠正注意力机制来实现这一目标,如下所示:

图片

图片

我们使用 

 作为查询来计算  和  的注意力权重。通过在添加校正项 [0.5;-0.5], 的注意力权重被限制在 [-0.5,0.5] 的范围内,从而实现了在正、负两个方向上自适应地集成来自  的知识的效果。最终,

 和 LLaMA 层输出的总和形成了动态集成单元的输出。

2.2  负向校准增强(NCE)

为了进一步增强模型的推理能力,我们提出了负校准增强(NCE),它使用负知识来帮助自我增强过程。我们首先使用 NAT 为中的每个问题生成对作为扩充样本,并将它们补充到训练数据集中。对于自蒸馏部分,我们注意到一些样本可能包含更关键的推理步骤,对提升模型的推理能力至关重要。我们的主要目标是确定这些关键的推理步骤,并在自蒸馏过程中加强对它们的学习。

考虑到 NAT 已经包含了 θ

 的有用知识,使得 NAT 比 θ

 推理能力更强的因素,隐含在两者之间不一致的推理链路中。因此,我们使用 KL 散度来测量这种不一致性,并最大化该公式的期望:

图片

图片

图片

β 值越大,表示两者之间的差异越大,意味着该样本包含更多关键知识。通过引入 β 来调整不同样本的损失权重,NCE 将能够选择性地学习并增强 NAT 中嵌入的知识。

2.3 动态自洽性(ASC)

自洽性(SC)对于进一步提高模型在复杂推理中的表现是有效的。然而,当前的方法要么为每个候选者分配相等的权重,要么简单地基于生成概率分配权重。这些策略无法在投票阶段根据 (rˆ, yˆ) 的质量调整候选权重,这可能会使正确候选项不易被选出。为此,我们提出了动态自洽性方法(ASC),它利用正负数据来训练排序模型,可以自适应地重新配权候选推理链路。

2.3.1 排序模型训练

理想情况下,我们希望排序模型为得出正确答案的推理链路分配更高的权重,反之亦然。因此,我们用以下方式构造训练样本:

图片

并使用 MSE loss 去训练排序模型:

图片

2.3.2 加权策略

我们将投票策略修改为以下公式,以实现自适应地重新加权候选推理链路的目标:

图片

下图展示了 ASC 策略的流程:

图片

从知识迁移的角度来看,ASC 实现了对来自 LLMs 的知识(正向和负向)的进一步利用,以帮助小模型获得更好的性能。

三、实验

本研究专注于具有挑战性的数学推理数据集 MATH,该数据集共有 12500 个问题,涉及七个不同的科目。此外,我们还引入了以下四个数据集来评估所提出的框架对分布外(OOD)数据的泛化能力:GSM8K、ASDiv、MultiArith和SVAMP。

对于教师模型,我们使用 Open AI 的 gpt-3.5-turbo 和 gpt-4 API来生成推理链。对于学生模型,我们选择 LLaMA-7b。

在我们的研究中有两种主要类型的基线:一种为大语言模型(LLMs),另一种则基于 LLaMA-7b。对于 LLMs,我们将其与两种流行的模型进行比较:GPT3 和 PaLM。对于 LLaMA-7b,我们首先提供我们的方法与三种设置进行比较:Few-shot、Fine-tune(在原始训练样本上)、CoT KD(思维链蒸馏)。在从负向角度学习方面,还将包括四种基线方法:MIX(直接用正向和负向数据的混合物训练 LLaMA)、CL(对比学习)、NT(负训练)和 UL(非似然损失)。

3.1 NAT 实验结果

所有的方法都使用了贪婪搜索(即温度 = 0),NAT 的实验结果如图所示,表明所提出的 NAT 方法在所有基线上都提高了任务准确性。

从 GPT3 和 PaLM 的低值可以看出,MATH 是一个非常困难的数学数据集,但 NAT 仍然能够在参数极少的情况下表现突出。与在原始数据上进行微调相比,NAT 在两种不同的 CoT 来源下实现了约 75.75% 的提升。与 CoT KD 在正样本上的比较,NAT 也显著提高了准确性,展示了负样本的价值。

对于利用负向信息基线,MIX 的低性能表明直接训练负样本会使模型效果很差。其他方法也大多不如 NAT,这表明在复杂推理任务中仅在负方向上使用负样本是不够的。

图片

3.2 NCE 实验结果

如图所示,与知识蒸馏(KD)相比,NCE 实现了平均 10%(0.66) 的进步,这证明了利用负样本提供的校准信息进行蒸馏的有效性。与 NAT 相比,尽管 NCE 减少了一些参数,但它依然有 6.5% 的进步,实现压缩模型并提高性能的目的。

图片

3.3 ASC 实验结果

为了评估 ASC,我们将其与基础 SC 和 加权(WS)SC 进行比较,使用采样温度 T = 1 生成了 16 个样本。如图所示,结果表明,ASC 从不同样本聚合答案,是一种更有前景的策略。

图片

3.4 泛化性实验结果

除了 MATH 数据集,我们评估了框架在其他数学推理任务上的泛化能力,实验结果如下。

图片

四、结语

本项工作探讨了利用负样本从大语言模型中提炼复杂推理能力,迁移到专业化小模型的有效性。小红书搜索算法团队提出了一个全新的框架,由三个序列化步骤组成,并在模型专业化的整个过程中充分利用负向信息。负向协助训练(NAT)可以从两个角度提供更全面地利用负向信息的方法。负向校准增强(NCE)能够校准自蒸馏过程,使其更有针对性地掌握关键知识。基于两种观点训练的排序模型可以为答案聚合分配更适当的权重,以实现动态自洽性(ASC)。大量实验表明,我们的框架可以通过生成的负样本来提高提炼推理能力的有效性。

论文地址:https://www./link/8fa2a95ee83cd1633cfd64f78e856bd3

五、作者简介

  • 李易为:
    现博士就读于北京理工大学,小红书社区搜索实习生,在 AAAI、ACL、EMNLP、NAACL、NeurIPS、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文,主要研究方向为大语言模型蒸馏与推理、开放域对话生成等。
  • 袁沛文:
    现博士就读于北京理工大学,小红书社区搜索实习生,在 NeurIPS、AAAI 等发表多篇一作论文,曾获 DSTC11 Track 4 第二名。主要研究方向为大语言模型推理与评测。
  • 冯少雄:
    负责小红书社区搜索向量召回。在 AAAI、EMNLP、ACL、NAACL、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文。

    道玄(潘博远):
    小红书交易搜索负责人。在NeurIPS、ICML、ACL 等机器学习和自然语言处理领域顶级会议上发表数篇一作论文,在斯坦福机器阅读竞赛 SQuAD 排行榜上获得第二名,在斯坦福自然语言推理排行榜上获得第一名。

    曾书(曾书书):
    小红书社区搜索语义理解与召回方向负责人。硕士毕业于清华大学电子系,在互联网领域先后从事自然语言处理、推荐、搜索等相关方向的算法工作。


# 过程中  # 自适应  # 斯坦福  # 情况下  # 如图所示  # 两种  # 链路  # 小红  # 自然语言  # math  # 提出了  # palm  # llama  # gpt  # https  # 算法  # ul  # Token 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 2025年AI图像生成指南:Google Gemini Nano Banana教程  提升英语口语:地道表达周末体验,语法精讲助你流利交流  ChatGPT助力Instagram Reels脚本创作:提升内容质量  稿定设计AI抠图怎样处理复杂边缘_稿定设计AI复杂边缘细化技巧【技巧】  挖掘用户数据:洞察与策略,提升播客全球影响力  Midjourney怎样用参数调色彩饱和度_Midjourney饱和度调整【方法】  AI视频生成终极指南:免费为店铺打造引流爆款  AI电子书写作终极指南:ChatGPT和Canva实战教程  SEO优化利器:利用AI提升标签的关键词密度  普通人如何用豆包AI月入过万?2026最新内容创作变现全攻略!  2025 YouTube自动化终极指南:利用AI实现高效内容创作和多平台发布  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  AI工作流程详解:概念到生产的完整指南  AMD Ryzen 5 2600: 游戏玩家高性价比之选  EdrawMind终极评测:AI赋能思维导图,提升效率与创造力  AI数据分析报告生成工具有哪些_一键生成可视化报告的AI工具推荐  Orkestra Obsolete: 用古董乐器重塑经典“Blue Monday”  AI写作鱼怎么一键生成论文大纲_AI写作鱼大纲生成与逻辑梳理【技巧】  轻松制作圣经视频:无需露脸也能赚钱的教程  豆包AI的发现页面有什么功能_探索热门智能体与话题  EdrawMax AI:使用人工智能快速创建流程图和图表  AI标语生成器:轻松打造品牌口号,提升品牌价值  Hugging Face Transformers:文本分类的完整指南  怎么用AI帮你写一份客户感谢信?维系客户关系的利器  AI复古风照片编辑教程:Gemini AI轻松打造复古时尚  软件工程师必备的AI工具:提升效率的六款利器  利用Gen AI和AI Agent进行软件测试:Ollama本地LLM实践  稿定设计AI抠图怎样调整透明度_稿定设计AI透明度滑块与渐变设置【攻略】  使用 DeepSeek 进行网络协议栈分析与优化建议  通义千问怎么用_通义千问使用方法详细指南【教程】  AI简历生成器:提升求职效率的智能工具  颠覆认知!《小丑回魂》幕后:用爆笑台词颠覆你的恐怖想象  通义千问怎样写小红书文案_通义千问文案写作步骤【步骤】  颠覆工作方式:2025年必备的9款强大AI工具  AI 和 Plagiarism Checker:SEO 内容创作的终极指南  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  AI内容检测与优化:免费工具助你提升内容质量  AI视频创作终极指南:文本到视频的免费工具与技巧  构建卓越的AI驱动测试自动化框架:QA工程师指南  EdrawMax全面评测:使用AI轻松绘制流程图和思维导图  ChatGPT 4.0赋能室内设计:20+实用技巧提升工作效率  掌握解方程技巧:4.2家庭作业难题精讲与分数系数处理  Wrike:AI赋能的项目管理平台,提升电商效率与团队协作  ChatGPT 处理非结构化数据并转换为 JSON 格式  Pictory AI视频制作平台深度评测:功能、价格与使用指南  使用 ChatGPT 自动生成月度财务分析报告  雷小兔ai智能写作怎样导入素材_雷小兔ai智能写作素材上传与引用【技巧】  AI QA 工程:通往人工智能质量保障工程师的职业道路  lumen5怎样从新闻稿生成社交视频_Lumen5新闻稿转社交视频步骤【社媒】  2025年最佳AI时间管理软件:Motion、Reclaim AI与Clockwise终极评测 

 2024-01-17

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.