大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好


面对当前微调大模型主要依赖人类生成数据的普遍做法,谷歌 deepmind 探索出了一种减少这种依赖的更高效方法。


如你我所见,大语言模型(LLM)正在改变深度学习的格局,在生|成人|类质量的文本和解决各种语言任务方面展现出了卓越的能力。虽然业界通过对人类收集的数据进行监督微调进一步提升了在具体任务上的性能,但获取高质量人类数据却面临着重大瓶颈。这对于要解决复杂问题的任务来说尤为明显,需要大量资源和专业知识。

怎么解决呢?模型生成得合成数据是一种有潜力的替代方案,只要能保证数据的质量,就能实现可扩展性和成本效益。

虽然 LLM 能够自我评估生成的数据,但在本文中,谷歌 DeepMind 探索了一种更简单的设置,将外部标量反馈信号用作每个生成样本的质量指标。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址:https://arxiv.org/pdf/2312.06585.pdf

为了研究在模型生成数据上的训练,研究者考虑了一种简单但强大的语言模型自训练方法,仅需要两项功能,一是基于模型生成样本,二是利用评分机制对这些样本进行评估。

为了确保清晰度和一致性,研究者采用了一种强化自训练方法 ReST^??,并证明该方法可以将期望最大化(expectation-maximization,EM)用于强化学习。具体来讲,ReST^??在期望和最大化步骤之间交替进行。

  1. 生成(E-step):语言模型为每个输入上下文生成多个输出样本,然后使用二元奖励过滤这些样本以收集训练数据集。
  2. 改进(M-step):原始语言模型在来自前一个 E-step 的训练数据集上进行监督微调,然后在下一个 E-step 中使用。

研究者证实,ReST^??及变体在增强各个领域的语言模型方面取得了成功,包括机器翻译、语义分析、偏好对齐和基础推理。

此外,以往工作主要将 ReST^??用于相对较小的模型(最高 70 亿参数),对于较大模型的可扩展性受限。因此,本文旨在探究模型生成的合成数据与人类生成的数据在以下两个具有挑战性但研究较少领域的有效性和可扩展性,这两个领域分别是竞争水平数学解题(MATH)和代码生成(APPS)。

实证结果表明,当将 ReST^??用于不同规模的 PaLM 2 模型时,在数学推理和代码生成任务中实现了显著的能力改进。与在人类编写数据上训练的模型相比,在模型生成的合成数据上微调的模型取得了更大的性能增益。有趣的是,超过了一定数量的 ReST^?? 迭代后,性能会降低,这表明了在少量训练问题上可能会出现过拟合。

此外,使用 ReST^??微调的模型提升了 pass@k 指标和多数投票性能。这些微调后的模型在相关但 held-out 的基准上也表现出了性能增强,包括数学题(GSM8K 和 Hungarian HS finals)、编码(HumanEval)和 Big-Bench Hard 任务。

总之,本文研究结果表明,具有反馈的自训练是减少对人类数据依赖的一种有潜力的方法。

用于强化自训练的期望最大值(EM)

首先,该研究基于 Dayan 和 Hinton 之前的研究,用语言模型描述了基于 EM 的强化学习框架。具体而言,他们先是定义了一个二进制最优变量 O,使得?(?= 1|?,?)∝?(?(?,?));然后对非递减函数 ? : ℝ → ℝ+ ,实现最大化观察?= 1(获得高奖励),得到如下公式:

然而,求解上式中的序列 ? 的和很棘手。因而本文考虑相对于参数 ? 和变分分布 ?( ?|?) 最大化其 ELBO ?( ??, ?),而不是最大化 log ?(? = 1; ?)。具体来说:

公式(2)中的 EM 算法在 E-step(Expectation) 和 M-step(Maximization)之间交替进行。

ReST^??:受 EM 框架的启发,接下来论文讨论了 Gulcehre 等人提出的 ReST 方法的简化版本。为了清楚起见,本文将这种方法称为 ReST^??,它将 RL pipeline 中的数据收集 (E-step) 和策略优化 (M-step) 进行解耦。如算法 1 所示:

生成(E-step):在此步骤中,该研究通过从当前策略 ?? 中采样输出序列来生成数据集。在这里,输入是从原始数据集中重新采样的。然后使用二元奖励函数 ?(?, ?) 对中的输出序列进行评分。

改进(M-step):在第 ?步迭代中,该研究使用 E-step 中的新数据集来微调策略 ??。不同于 Gulcehre 的研究,他们微调基本预训练语言模型,以最大限度地减少特定于任务的过度拟合并最大限度地减少与基本模型的偏差。为了进行微调,该研究最小化奖励加权负对数似然损失。一旦策略得到改进,就可以再次创建质量更好样本的新数据集。

实验和分析

本文进行实验的主要目标是回答以下问题:

  1. 与人类生成的数据进行微调相比,ReST^??的效果如何? 
  2. 需要多少次迭代才能获得最佳性能?ReST^??多长时间会导致训练集过度拟合? 
  3. ReST^??如何影响 pass@k 和多数投票表现? 
  4. 如果用户在特定任务上使用模型生成的数据进行微调,是否会迁移到其他任务上?在广泛的任务中评估本文的微调模型时,与基本模型相比,性能是否会下降?
  5. 大约需要多少输入数据才能从 ReST^?? 获得大部分性能提升?ReST^??的一次迭代是否足够?

该研究使用 PaLM 2 模型和 Google Cloud 上的公共 API 进行实验,包括 PaLM 2-S (Bison)、PaLM 2-S* (Codey) 和 PaLM 2-L (Unicorn)。训练数据集采用 MATH 数据集和 APPS 数据集。

图 2 和图 3 分别显示了 ReST^??在 MATH 和 APPS 数据集上训练的性能。可以得出 MATH 受益于  ReST^?? 的多次迭代,无论是在 MATH 测试集上的性能还是迁移到 GSM8K 方面。另一方面可以看到 APPS 的大部分收益来自第一次迭代,而执行更多次迭代会导致 APPS 和 HumanEval 的性能下降。

训练和测试性能的差距。图 4 显示,虽然训练集性能随着 ReST^??迭代次数线性增加,但测试集性能却没有。对于 MATH,第一次迭代后测试性能改进很小,而对于 APPS,在第二次迭代中观察到性能回归。该研究猜测性能的回归可能是由于过度拟合造成的。由于 APPS 数据集的大小约为 MATH 数据集的三分之一,因此它更容易受到此问题的影响。

图 5 显示了 Palm-2-L 模型在 pass@K 指标上的性能。结果显示,微调后获得的 ReST^?? 模型对于所有 K 值都更强,其中性能差距通常在 K=1 时最大。


# math  # 算法  # https  # palm  # 迭代  # 出了  # 是否会  # 的是  # 取得了  # 是在  # 在这里  # 是一种  # 就能  # 多个 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 壹伴AI智能排版如何自动生成文章配图_壹伴AI智能排版配图生成与版权说明【教程】  探索都市传说:追寻鳄鱼飞机怪物“Bombardino Crocodilo”  AI在建筑行业的革命:提升效率与优化流程  3步教你用AI帮你把菜谱转换成详细的烹饪步骤视频脚本  AI赋能软件测试:自动化、智能化与未来趋势  AI猴子视频制作终极指南:从入门到网红,轻松上手!  Mermaid Playground: AI驱动的图表秒速创建指南  Zapier MCP:AI赋能工作流,释放Claude强大潜能  AI如何革新心理健康诊断:从症状检查到大脑分析  即梦ai能否生成国风插画_即梦ai国风元素调用与文化符号添加【技巧】  教你用AI将一段旋律扩展成一首完整的曲子  京东旅行AI能否抢返程票_京东AI返程票预约与自动抢购【技巧】  提升房地产业务:AI语音助手赋能房地产经纪公司  DiagramMagic:AI驱动的在线图表生成器终极指南  百度AI助手官方入口 文心一言网页版登录入口  2025数据科学学习指南:技能、工具和学习路线图  Spin Rewriter AI:终极内容创作与SEO优化指南  钉钉ai划词工具怎样查看划词历史_钉钉ai划词工具历史记录查询【指南】  谷歌 Gemini AI 助手详解:功能、应用与隐私设置  如何用 ChatGPT 批量处理 Excel 复杂公式  feelin聊天官方网站入口 feelinAl官方网站  重温经典:宝可梦动画中的精彩瞬间与幕后花絮  LeetCode问题解析:移除回文子序列,掌握字符串技巧  千问AI赚钱指南:新手也能月入破万的实操路径解析!  Guru知识管理平台:AI驱动的企业知识中心构建指南  Google Gemini 辅助进行 Android Studio 代码开发  Claude如何关闭自动续费_Claude续费关闭方法【方法】  AIPPT:AI驱动的PPT制作工具,高效便捷演示文稿方案  Lovart AI设计助手:AI驱动设计,零成本开启创意新纪元  DesignGen: 5个AI模型革新服装设计,快速实现创意  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  电脑硬件升级指南:旧电脑的回收利用与性能提升  ClaudePC端怎么设主题色_ClaudePC端主题设置步骤【教程】  如何让ChatGPT模仿特定文风 创意写作与品牌话术生成教程  深入解析音视频转录:全面指南与实践技巧  快手本地生活AI如何预约景区火车票_快手AI本地生活抢票步骤【步骤】  Character AI深度解析:功能、用户反馈与替代方案全攻略  掌握写作技巧:小说情节设计的核心要素解析  2025年度AMD处理器终极评选:年度最佳CPU推荐  通义千问怎么设置功能偏好_通义千问偏好设置【教程】  通义千问怎样写小红书文案_通义千问文案写作步骤【步骤】  怎么用AI帮你进行头脑风暴并分类?5分钟输出结构化创意清单  AI电商网站搭建:CSV到WooCommerce全流程指南  微信AI数字人怎样切换形象风格_微信AI数字人形象更换与风格选择【技巧】  DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】  AI对决:挑战AI上帝,探索信仰与科技的边界  CanvaAI抠图能否保留透明图层_CanvaAI透明图层保留与导出设置【方法】  AI驱动保险代理:最佳保险 lead generation 公司与服务  AI照片编辑:为你的单人照添加逼真女友,告别孤单  通义万相做海报怎么用_通义万相做海报使用方法详细指南【教程】 

 2024-08-05

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.