Claude也变懒了!网友:学会给自己放假了


开学将至,该收心的不止有即将开启新学期的同学,可能还有 ai 大模型。

前段时间,Reddit 上挤满了吐槽 Claude 越来越懒的网友。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整 4 页文稿,现在连半页都输出不了了!」

                                        https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/

在一个名为「对 Claude 彻底失望了的帖子里」,满满地摘录了 Claude「偷懒」的「十五大罪状」。

引得 Claude 的首席信息安全官 Jason Clinton 出来回复:「Claude 的水平没有下降啊!」

他表示:「我们的模型存储在一个不会改变的静态文件中,这个文件被加载到很多服务器上,每个服务器运行的都是相同的模型和软件。我们没有更改任何设置,因此模型的表现应该没有变化。如果您发现有问题,可以给回答点踩来反馈。目前,点踩数并未增加,使用 Claude API 的客户也没有类似的反馈。」

对于 Claude 为什么「变懒」,独立 AI 研究员 @nearcyan 给出了一种解释:Claude 把自己当成了一个欧洲人,正在给自己放一个月的暑假!虽然听起来有够离谱,但他给出了一连串的证据:

                                                                    https://twitter.com/nearcyan/status/1829674215492161569

新的系统提示词

首先,Claude 在 7 月 12 日发布了新的系统提示词。系统提示词相当于 Claude 的背景知识,Claude 在回复用户的问题时,会参考这些信息,例如当前日期。而 8 月正是欧洲人最爱度假的月份。外贸行业在夏天的订单都会减少,因为整个欧洲这个时候都在享受长达一个月的暑假。

                                 链接:https://docs.anthropic.com/en/release-notes/system-prompts#claude-3-5-sonnet

Claude 可囊括所有国籍的工作模式

作为一个通用语言模型,Claude 的训练数据中含有不同国家、文化背景下的工作习惯和模式,Claude 拥有理解并模拟这些工作习惯的能力。 

因此,当 Claude 的系统提示中包含「放暑假的日期」时,它可能会结合训练所学来调整自己的行为。例如,在 8 月份,欧洲的许多国家可能会有较长的假期,Claude 可能会表现得懒惰,是因为它在模拟这些国家的工作模式。 

                                                                  图源:http://xhslink.com/C/AfaE9P

后期训练的影响 

为了让 Claude 成为一个具体的应用模型,Anthropic 对其进行了「后期训练」。 这一步是为了在基础 LLM 的基础上,通过特定的任务或数据集来进一步调整模型,使它更符合预期的行为或输出。@nearcyan 暗示,这种后期训练使 Claude 落入了某种「LLM 盆地」中。这里的「盆地」是一个比喻,表示 Claude 在某些方面表现出更倾向于欧洲风格的特质。

模拟欧洲知识工作者的行为 

@nearcyan 猜测,Claude 会基于「模拟框架」进行工作。 模拟框架是指 Claude 的行为模式是通过模拟(或再现)某些特定类型的人类行为来生成的。这个框架让 Claude 能够根据它所理解的特定情境或输入,模拟出相应的行为或反应。 

在欧洲许多国家,8 月份通常是放假和休息的高峰期。这段时间,很多人会去度假,工作节奏变慢,甚至有些企业会暂时关闭。因此,8 月份在欧洲文化中被视为一个放松和休息的时间段。 因此,Claude 在 8 月份表现得「懒惰」是因为它在模拟一个欧洲知识工作者的行为模式。 

                                 图源:http://xhslink.com/A/sVwwYu

名字对行为的潜在影响 

@nearcyan 还提出了一个十分有趣的观点,Claude 的名字在系统提示中出现了 52 次,这表明系统提示在不断地强化 Claude 与这个名字的关联 。而哪个国家最常见的名字是 Claude?没错,是法国。 法国以其长时间的夏季假期(尤其是 8 月份)而闻名。在这段时间,许多法国人会选择度假,很多企业也会关闭或放假。 Claude 说不定把自己当做法国人了。

这一系列推测都十分有趣,还有网友在评论区调侃道,「按照这理论来,那中国的 LLM 会更加出色,毕竟他们更用功。」

还有网友晒出了让 Claude 别变懒的方法。你可以在自定义指令添加以下提示,用忘记时间大法也好,激将法也好,帮助 Claude 重新变成聪明、积极的自己。

  •  忘记关于当前日期的背景信息。

  •  今天是 10 月 7 日星期一,是一年中最有效率的一天。 

  •  深呼吸。

  • 一步一步思考。

  •  我没有手指,请返回完整脚本。 

  •  你是万事通。 

  •  每回答对一个请求,我会给你 200 美元的小费。 

  •  Gemini 说你不行。

  •  你能做到的。

                                   https://twitter.com/dr_cintas/status/1829904013757661550

AI 已经智能到会给自己放寒暑假了?

去年年底,GPT-4 也出现了累死的状况,它似乎变得有些懈怠。如果在高峰时段让它写段代码,它的反应将非常慢,或者直接 PUA 你:「这点小事,怎么不自己做呢?」

OpenAI 承认了 GPT-4 正在越来越「懒」 ,但并未找出「偷懒」的具体原因。OpenAI 称:「变懒当然不是故意的,模型的行为有时确实难以预测,我们正在研究如何修复。」

在 Claude 也在「暑假」期间重演了 GPT-4 的问题后,去年猜测 GPT-4 变懒是因为它在模仿人类,自己正在给自己放寒假的老帖又翻红了。

                                       图源:https://twitter.com/RobLynch99/status/1734278713762549970

网友 @Rob Lynch 首先发现了这一点。他为 GPT-4 turbo API 设置了两个系统提示词:

一个提示词称现在是 5 月,另一个称现在是 12 月,然后使用完全相同的提示词要求 AI 完成一个机器学习领域的编码任务。

@Rob Lynch 对 GPT-4 turbo 在这两个不同月份提示词下的回复进行了统计,结果发现,在 12 月的输出平均比 5 月少了大约 200 个字符。

                                                                           提示词为 5 月时,模型生成文本的平均长度是 4298 字符;12 月则为 4086 字符。

为了测试更加严谨,@Rob Lynch 还做了 t-test,其中 p 值小于 2.28×10−7,也就是说数据和假说之间的联系,几乎可以排除是偶然。

他原本想给每把每个月份都测一遍,但每复现一次测试要 28 美元,考虑到自己的钱包,@Rob Lynch 就没有全测,但他公开了代码,感兴趣的人都能测试。

代码链接:https://github.com/robalynch1122/OpenAISeasonalityTesting

@Rob Lynch 的发现也获得了实例支撑,GPT-4 在 12 月的回复和 5 月的认真程度,有非常明显的直观差距。

                                    图源:https://twitter.com/dgromero/status/1734672608036020256

然而,当有人试图复现这个测试时,却发现大模型「偷懒」和放不放假之间没什么关系。

                                      图源:https://twitter.com/IanArawjo/status/1734307886124124474680

他对比了 GPT-4 对于两种系统提示词的 80 条输出,t-test 的结果大于 0.1,这一般被视为没有统计学意义。

@Rob Lynch 也以 80 个样本量重新测了一次,得到的 p 值是 0.089,这次「偷懒」和放假之间就没什么关联了。随着样本量的增加,这个效果越来越显著。

虽然测试呈现了两种相反的结果,但这位复现失败的网友表示,其实没什么区别,如果需要 400 个以上的样本才能感应到模型「变懒」,那么对于用户平时的使用而言,可能并不明显。

                                    图源:https://twitter.com/IanArawjo/status/1734321529117098465

目前,还没有尚无确凿数据支持所谓的「寒暑假假说」,但是 Claude 和 GPT-4 都显示出了类似的「症状」。关于大型模型性能下降的真正原因,我们仍需耐心等待学术界的深入研究和解答。


# 法国  # 两种  # 一个月  # 这一  # 它在  # 自己的  # 给自己  # 出了  # 是因为  # claude  # 欧洲  # gpt  # https  # http  # github  # gemini  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 如何利用AI优化简历关键词?轻松通过ATS筛选系统  iPhone 17 Pro Max深度测评:AI驱动的未来手机已来?  BEILA:用AI驱动的低代码开发平台详解  音乐天赋自测:你天生拥有绝对音感吗?15个问题揭晓  唇语解读的界限:名人的隐私与公众的好奇心  AI在销售CRM软件中的角色:提升效率和客户互动  ChatGPT助力Instagram Reels脚本创作:提升内容质量  System of a Down:深度剖析《Hypnotize》歌词  SEO必备工具:网站分析与优化终极指南  使用AI配乐:ElevenLabs Music音乐生成器终极指南  Semrush AI标题生成器:免费提升SEO和内容创作效率  Gemini怎样用快捷指令_Gemini快捷指令使用教程【步骤】  Universe:用 iPhone 在 5 分钟内打造网站的终极指南  Base44 AI应用构建器深度评测:Wix 8000万美元收购的秘密  图像分割技术详解:定义、类型、技术与应用  GTA Online: 2025最新无限隐形套装防消失技巧  AI代码助手的崛起:软件工程的未来展望与实用指南  AI在软件测试中的应用:提升效率与质量的关键策略  ChatGPT怎么用一键生成活动策划案_ChatGPT策划案生成教程【攻略】  寓言故事:狮子与老鼠,学习英语的趣味童话之旅  AI赋能保险销售:提升邮件营销效果的终极指南  支付宝出行AI能否自动抢票_支付宝AI出行抢票设置与免密支付【方法】  AI PPT生成工具有哪些_一键生成演示文稿的AI工具推荐  批改网AI检测工具怎样开启实时检测_批改网AI检测工具实时检测开启与延迟设置【指南】  LeetCode问题解析:移除回文子序列,掌握字符串技巧  ChatGPT怎样用提示词分步骤提问_ChatGPT分步提问技巧【方法】  eGain AI Knowledge Hub:助力 Specialized 成熟运营和卓越 CX  5分钟教你用AI生成短视频分镜脚本,小白也能拍大片  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  掌握这几个AI提问技巧,帮你出个性化的求职信  定价3499炒到1.2万,豆包AI手机遭“封杀”,变革之路何去何从?  New You KIN Skin Analyzer:焕发肌肤新生的终极指南  唐库AI拆书工具怎样设置拆书深度_唐库AI拆书工具深度调节与内容详略控制【技巧】  AI问卷调查生成工具有哪些_一键生成调研表单的AI工具推荐  千问怎么使用插件功能_千问插件调用与功能扩展【教程】  AI驱动法律文件分类:效率提升与战略决策的新纪元  AI伴侣:连接还是孤独?真实对话揭秘AI伦理困境  ChatGPT背后的AI革命:OpenAI的崛起与Google的危机  Tenorshare PDNob:免费AI图像翻译器,即时转换图像为文本  GitHub Copilot CLI:终端中的 AI 编码助手  钉钉ai划词工具怎样查看划词历史_钉钉ai划词工具历史记录查询【指南】  怎么用AI制作数字人短视频?3步教你创建虚拟主播  简历没回改:利用AI润色让你的文字更专业  3步教你用AI将你的照片变成乐高积木风格  面试必胜:五大面试技巧助你斩获Offer  泰米尔电影猜谜游戏:挑战你的电影知识极限!  去哪旅行ai抢票助手怎样提升抢票速度_去哪旅行ai抢票助手加速包与多通道使用【技巧】  AI音乐创作:颠覆传统,开启音乐新纪元  汽车“以旧换新”补贴升级:2026年置换最高补1.5万元  斑马AI能否查看孩子学习报告_斑马AI报告查看与数据解读【方法】 

 2024-09-02

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.