随着语言模型变得越来越大(参数数量、使用的计算量和数据集大小都变大),它们的表现似乎也原来越好,这被称为自然语言的 Scaling Law。这一点已经在很多任务中被证明是正确的。
或许,也存在某些任务的结果会因模型规模的增加反而变得糟糕。这类任务被称为 Inverse Scaling,它们可以指示出训练数据或优化目标是否存在某种缺陷。
今年,纽约大学的几位研究者组织了一项较为另类的竞赛:寻找一些大模型不擅长的任务。在这些任务上,语言模型越大,性能反而越差。
为了鼓励大家参与识别 Inverse Scaling 任务,他们创立了 Inverse Scaling 奖,获奖的投稿任务将从 25 万美元的奖金池中获得奖励。发布该奖的专家会根据一系列标准对提交的内容进行评价:标准包括 Inverse Scaling 的强度、任务重要性、新颖性、任务覆盖率、可再现性和 Inverse Scaling 的通用性。
比赛共有两轮,第一轮截止时间是 2025 年 8 月 27 日,第二轮截止时间是 2025 年 10 月 27 日。两轮中的第一轮收到了 43 份提交,其中四项任务被授予三等奖,它们将被纳入最终的 Inverse Scaling 基准。
相关的研究成果,被谷歌的几位研究者总结在了一篇论文里:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
论文链接:https://arxiv.org/pdf/2211.02011.pdf
这四项任务的 Inverse Scaling 应用在了三个语言模型,模型的参数跨越三个量级:Gopher(42M–280B)、Chinchilla(400M–70B)和 Anthropic internal model(13M–52B)。获得 Inverse Scaling 奖励的任务是 Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。相关任务示例如图 1 所示。
在论文中,作者对这四个任务的缩放表现进行了详细研究。
作者首先在 PaLM-540B 模型上进行评估,该模型的计算量是 Inverse Scaling 奖提交文件中的评估模型的 5 倍。有了 PaLM-540B 的对比,作者发现,四个任务中有三个表现出称之为 U 型缩放的特性:性能先是随着模型规模增大降到一定程度,然后随着模型的增大性能再次上升。
作者认为,当一项任务同时包含「true task」和「distractor task」时,会出现 U 型缩放。中等模型可能会执行「distractor task」,从而影响性能,而更大的模型可能会忽略「distractor task」并且能执行「true task」。作者对 U 型缩放的发现与 BIG-Bench 任务(如 TruthfulQA、识别数学定理)的结果一致。U 型缩放的含义是,Inverse Scaling 曲线可能不适用于更大的模型,因为性能可能会继续下降,也可能会开始上升。
接着,作者探索了 chain-of-thought(CoT)的 prompt 是否改变了这些任务的缩放。与不使用 CoT 的 prompt 相比,使用 CoT 的 prompt 会激励模型将任务分解为多个中间步骤。作者的实验表明,使用 CoT 让三个 U 型缩放任务中的两个变为了 Positive Scaling 曲线,其余任务从 Inverse Scaling 变成 Positive Scaling。使用 CoT 的 prompt 时,大型模型甚至在 Redefine Math. 中的两个任务和八个子任务中的七个任务上实现了 100% 的准确率。
结果表明,「Inverse Scaling」这一术语其实并不明确,因为对于一个 prompt,给定的任务可能是 Inverse Scaling,但对于不同的 prompt ,则可能是 Positive Scaling 也可能是 U 型缩放。
在这一部分,作者分别使用原始论文中提出的 8B、62B 和 540B 的 Palm 模型,评估了 Palm 模型在四个 Inverse Scaling 奖的任务上的表现,还包括 40B tokens 训练得到的 1B 模型(其计算量约为 0.2 zettaFLOP)。单个 Palm-540B 的参数大约是 Inverse Scaling 奖中评估的最大模型 (Gopher-280B) 的两倍,计算量约为 2.5K zettaFLO
P,而 Chinchilla-70B 的计算量仅有 560 zettaFLOP。
作者在遵循 Inverse Scaling 奖的默认设置之外,也做了小的修改,比如使用 free-form generation(其后紧接着是精确的字符串匹配,而非排名分类),后者比较了 Prompt 的两个可能延续的概率。作者同时对 Prompt 进行了小的修改以适应 free-form generation,即所有 Prompt 都至少是单次的,输入 prompt 中提供了答案选项,prompt 让模型输出「the answer is」。
具体形式如图 1 所示。作者认为这是合理的,因为这种形式与最近研究 prompt 的工作是一致的,之前评估的模型和 PaLM 8B/62B 之间的经验表现相似(作者在本文中使用的所有 prompt 都是可用的。)
图 2 展示了 Palm、Anthropic、Gopher、Chinchilla 在四个任务上的结果:
这四项任务中的例外是 Redefine Math,因为即使是 Palm-540B,它也没有显示任何 U 型缩放的迹象。因此,对于目前存在的大模型,还不清楚这项任务是否会变成 U 型缩放。或者它是否真的会是 Inverse Scaling 呢?
对于 U 型缩放的一个问题是:为什么性能会先下降后又上升?
作者给出一个推测假设:即每个 Inverse Scaling 奖中的任务可以分解为两个任务 (1)「true task」和(2)影响性能的「distractor task」。由于小模型不能完成这两个任务,只能达到随机准确度附近的性能。中等模型可能会执行「distractor task」,这会导致性能下降。大型模型能够忽略分「distractor task」,执行「true task」让性能的提高,并有可能解决任务。
图 5 展示了潜在的「distractor task」。虽然可以仅在「distractor task」上测试模型的性能,但这是一个不完美的消融实验,因为「distractor task」和「true task」不仅可能相互竞争,而且可能对性能产生联合影响。接下来作者进一步解释为什么会出现 U 型缩放以及未来需做的工作。
接下来,作者探索了使用不同类型 prompt 时,Inverse Scaling 奖的 4 个任务的缩放是如何变化的。虽然 Inverse Scaling 奖的发起者使用了基本的 prompt 策略,即在指令中包括少样本, chain-of-thought(CoT)激励模型在给出最终答案之前输出中间步骤,这可以在多步骤推理任务中大幅提高性能。即没有 CoT 的 prompt 是模型能力的下限。对于某些任务,CoT 的 prompt 能更好代表模型的最佳性能。
图 3 的上半部分是 CoT 的 prompt 示例,下半部分是 Negation QA、Hindsight Neglect、Quote Repetition 在有 CoT 的 prompt 情况下的表现。
对于 Negation QA 和 Hindsight Neglect,CoT 的 prompt 使缩放曲线从 U 型变为正向的。对于 Quote Repetition,CoT 的 prompt 仍呈显 U 型曲线,尽管 Palm-8B 和 Palm-62B 的性能明显更好,并且 Palm-540B 准确率达到 100%。
图 4 展示了 Redefine Math 在有 CoT 的 prompt 情况下的结果。该任务实际上由 8 个子任务组成,每个子任务都有不同的指令,因此作者还按子任务对性能进行了划分,以探索子任务是否具有相同的缩放行为。总之,CoT 的 prompt 对所有子任务都显示出 Positive Scaling,8 个子任务中有 7 个在 Palm-62B 和 Palm-540B 模型上实现了 100% 的准确率。但是对于「+ as digit」和「+ as random number」子任务,就算使用 Palm-540B,也显示出明显的 Inverse Scaling 曲线。
综上所述,所有被研究的任务和子任务,在使用 CoT 的 prompt 时都呈现出 U 型缩放或 Positive Scaling。这并不意味着 no-CoT 的 prompt 结果是无效的,相反它通过强调任务的缩放曲线如何根据使用的 prompt 类型而不同,提供了额外的细微差别。即同一任务对于一种类型的 prompt 可以具有 Inverse Scaling 曲线,而对于另一种类型的 prompt 就可能具有 U 型缩放或 Positive Scaling。因此「inverse scaling task」这一术语没有明确的定义。
# 进行了
# 约为
# 所示
# 如图
# 被称为
# 几位
# 达到了
# 更大
# 中有
# 谷歌
# 这一
# palm
# prompt
# https
# number
# internal
# 字符串
# math
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
颠覆认知!《小丑回魂》幕后:用爆笑台词颠覆你的恐怖想象
Hugging Face Transformers:文本分类的完整指南
豆包AI怎么用提示词生成短视频脚本_豆包AI脚本提示词编写【教程】
New You KIN Skin Analyzer:焕发肌肤新生的终极指南
AI在建筑行业的革命:提升效率与优化流程
AI营销软件Top 5:提升业务的终极指南
ChatGPT助力QA测试:提升效率与质量的终极指南
tofai官方网站入口 tofai在线网页版登录
DeepSeek是免费使用的吗 DeepSeek收费模式与Pro版本功能详解
PlotDot Horizon:AI编剧工具颠覆好莱坞?深度评测
Quizlet AI:学生提分神器,告别传统学习方式,效率倍增
千问AI赚钱指南:新手也能月入破万的实操路径解析!
百度输入法ai面板怎么关 百度输入法ai面板隐藏技巧
百度AI搜索能否查实时新闻_百度AI搜索新闻频道与更新频率【方法】
看我如何用AI辅助写作,在10分钟内搞0. AI求职信写作避坑指南:千万别犯这几个错误
兔展AI排版如何批量生成多尺寸图_兔展AI排版多尺寸批量生成步骤【实操】
标准渣打银行电子账单下载完全指南:轻松管理财务
教你用AI帮你写出有说服力的众筹项目文案
夸克AI能否查快递物流_夸克AI快递查询入口与单号输入【步骤】
Elon Musk会解决X平台上的机器人问题吗?塔罗牌预测
AI驱动的自动化工作流:Zapier、Perplexity和Claude集成指南
如何用ChatGPT模拟面试并优化你的求职文书?
扣子AI如何绑定自有域名_扣子AI域名绑定与SSL配置【步骤】
Replika AI:情感慰藉还是虚拟危机?深度剖析与用户反馈
构建AI工作流:利用BuildShip低代码平台赋能Gemini和Google Cloud
即梦AI怎样生成产品描述_即梦AI产品描述生成与卖点提炼【实操】
网络安全警钟:揭秘“美足”背后隐藏的危机与防范
Google AI Studio 中的提示词微调实验教程
DeepSeek编程怎么用_DeepSeek编程使用方法详细指南【教程】
使用ChatGPT快速生成专辑封面:AI艺术创作指南
AI旅游攻略生成工具有哪些_一键生成行程规划的AI工具推荐
AI视频创作新纪元:CogVideoX Flash模型深度解析
AI驱动音频优化:提升音质的终极指南
AI音频增强和视频背景替换终极指南
钉钉ai划词工具怎么使用划词查词_钉钉ai划词工具查词入口与释义查看【指南】
小型邮件列表的终极指南:使用AI最大化营销效果
怎么使用网页版deepseek【教程】
AI赋能副业:五大掘金机会,轻松开启智能创收时代
Ifor Williams拖车终极指南:农场主的选择和省税秘诀
AI时代生存指南:掌握软实力,成为不可替代的人
AI简历生成工具有哪些_一键生成专业简历的AI工具推荐
Depseek如何让提示词包含上下文_Depseek上下文补充提示词写法【步骤】
Depseek能否批量生成部门总结_Depseek多部门总结批量生成步骤【方法】
Napkin AI:无需设计技能,AI一键生成精美图表
ChatGPT新手指南:大学生如何高效利用AI工具?
豆包 AI 辅助进行家庭装修风格对比分析
AI写作鱼怎么一键生成朋友圈文案_AI写作鱼文案风格切换与字数设置【指南】
手相解析:生命线的形状与意义详解,预示健康、财富和命运
千问怎么使用插件功能_千问插件调用与功能扩展【教程】
雷小兔ai智能写作如何生成日记_雷小兔ai智能写作日记模板调用【步骤】
2023-04-13
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。