继windows copilot发布后,微软build大会热度又被一场演讲引爆。
前特斯拉AI总监Andrej Karpathy在演讲中认为思维树(tree of thoughts)与AlphaGo的蒙特卡洛树搜索(MCTS)有异曲同工之妙!
网友高呼:这是关于如何使用大语言模型和GPT-4模型的最详尽有趣的指南!
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
此外Karpathy透露,由于训练和数据的扩展,LLAMA 65B“明显比GPT-3 175B更强大”,并介绍了大模型匿名竞技场ChatBot Arena:
Claude得分介于ChatGPT 3.5和ChatGPT 4之间。
网友表示,Karpathy的演讲一向很棒,而这次的内容也一如既往没有令大家失望。
随着演讲而爆火的,还有推特网友根据演讲整理的一份笔记,足足有31条,目前转赞量已超过3000+:
所以,这段备受关注的演讲,具体提到了哪些内容呢?
Karpathy这次的演讲主要分为两个部分。
第一部分,他讲了如何训练一个“GPT助手”。
Karpathy主要讲述了AI助手的四个训练阶段:
预训练(pre-training)、监督微调(supervised fine tuning)、奖励建模(reward modeling)和强化学习(reinforcement learning)。
每一个阶段都需要一个数据集。
在预训练阶段,需要动用大量的计算资源,收集大量的数据集。在大量无监督的数据集上训练出一个基础模型。
Karpathy用了更多例子作补充:
接下来进入微调阶段。
使用较小的有监督数据集,通过监督学习对这个基础模型进行微调,就能创建一个能够回答问题的助手模型。
他还展示了一些模型的进化过程,相信很多人之前已经看过上面这张“进化树”的图了。
Karpathy认为目前最好的开源模型是Meta的LLaMA系列(因为OpenAI没有开源任何关于GPT-4的内容)。
在这里需要明确指出的是,基础模型不是助手模型。
尽管基础模型有解决问题的能力,但其给出的答案并不可信,而助手模型能够提供可靠的答案。经过监督微调的助手模型,在基础模型的基础上训练,其生成回复和理解文本结构的表现将优于基础模型。
在训练语言模型时,强化学习是另一个关键的过程。
训练过程中采用高质量的人工标注数据,并以奖励建模的方式创建损失函数,从而提高其性能。强化训练可以通过增加积极标记和降低消极标记的概率来实现。
在涉及到创造性任务时,人类的判断力对于改进AI模型至关重要,通过加入人类的反馈可以更有效地训练模型。
经过人类反馈的强化学习后,就可以得到一个RLHF模型了。
模型训练好了,接下来就是如何有效利用这些模型解决问题了。
在第二部分,Karpathy主要讨论了提示策略、微调、快速发展的工具生态系统以及未来的扩展等问题。
Karpathy又给出了具体示例来说明:
在写作时,我们需要进行很多心理活动,包括考虑自己的表达是否准确。For GPT, this is merely a sequence of tokens being tagged.。
而提示(prompt)可以弥补这种认知差异。
Karpathy进一步解释了思维链提示的工作方式。
对于推理问题,要想让自然语言处理中Transformer的表现更好,需要让它一步一步地处理信息,而不能直接抛给它一个非常复杂的问题。
如果你给它几个例子,它会模仿这个例子的模版,最终生成的结果会更好。
模型只能按照它的序列来回答问题,如果它生成的内容是错误的,你可以进行提示,让它重新生成。
如果你不要求它检查,它自己是不会检查的。
这就涉及到了System1和System2的问题。
诺贝尔经济学奖得主丹尼尔卡尼曼在《思考快与慢》中提出,人的认知系统包含System1和System2两个子系统。System1主要靠直觉,而System2是逻辑分析系统。
通俗来说,System1是一个快速自动生成的过程,而System2是经过深思熟虑的部分。
这在最近一篇挺火的论文“Tree of thought”(思维树)中也有被提及。
深思熟虑指的是,不是简单的给出问题的答案,而更像是与Python胶水代码一起使用的prompt,将许多prompt串联在一起。为了扩展提示,模型需要维护多个提示并执行树搜索算法。
Karpathy认为这种思路与AlphaGo非常相似:
AlphaGo在下围棋时,需要考虑下一枚棋子下在哪里。最初它是靠模仿人类来学习的。
除此之外,它还实施了蒙特卡洛树搜索,以获取具有多种潜在策略的结果。它可以对多种可能的下法进行评估,仅保留那些较好的策略。我认为这在某种程度上相当于AlphaGo。
对此,Karpathy还提到了AutoGPT:
我认为目前它的效果还不是很好,我不建议大家进行实际应用。我认为随着时间的推移,我们或许可以从它的发展历程中吸取启示。
其次,还有一个小妙招是检索增强生成(retrieval agumented generation)和有效提示。
窗口上下文的内容就是transformers在运行时的记忆(working memory),如果你可以将与任务相关的信息加入到上下文中,那么它的表现就会非常好,因为它可以立即访问这些信息。
简而言之,就是可以为相关数据建立索引让模型可以高效访问。
如果Transformers也有可参考的主要文件,它的表现会更好。
最后,Karpathy简单讲了一下在大语言模型中的约束提示(Constraint prompting)和微调。
可以通过约束提示和微调来改进大语言模型。约束提示在大语言模型的输出中强制执行模板,而微调则调整模型的权重以提高性能。
我建议在低风险的应用中使用大语言模型,始终将它们与人工监督相结合,将它们看作是灵感和建议的来源,考虑copilots而不是让它们完全自主代理。
Andrej Karpathy博士毕业后的第一份工作,是在OpenAI研究计算机视觉。
后来OpenAI联合创始人之一的马斯克看上了Karpathy,把人挖到了特斯拉。马斯克和OpenAI因此事不和,最终马斯克被排除在外。Karpathy负责特斯拉公司的Autopilot、FSD等项目。
今年二月份,在离开特斯拉7个月后,Karpathy再次加入了OpenAI。
最近他发推特表示,目前对开源大语言模型生态系统的发展饶有兴趣,有点像早期寒武纪爆发的迹象。
传送门:
[1]https://www.youtube.com/watch?v=xO73EUwSegU(演讲视频)
[2]https://arxiv.org/pdf/2305.10601.pdf(“Tree of thought”论文)
参考链接:
[1]https://twitter.com/altryne/status/1661236778458832896
[2]https://www.reddit.com/r/MachineLearning/comments/13qrtek/n_state_of_gpt_by_andrej_karpathy_in_msbuild_2025/
[3]https://www.wisdominanutshell.academy/state-of-gpt/
# gpt
# chatgpt
# claude
# 我认为
# 如果你
# 也有
# 开源
# 可以通过
# 深思熟虑
# 解决问题
# 让它
# 这在
# 讲了
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
AI如何革新心理健康诊断:从症状检查到大脑分析
AI客户服务的最新趋势:个性化与情感智能
Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】
千问怎么用提示词生成演讲稿_千问演讲稿提示词框架与开场【教程】
智谱AI创意设计怎么用_智谱AI创意设计使用方法详细指南【教程】
Claude如何关闭自动续费_Claude续费关闭方法【方法】
AI音乐创作:颠覆传统,开启音乐新纪元
掌握写作技巧:小说情节设计的核心要素解析
AI语音生成指南:免费工具、变现实战与避坑策略
AI驱动KDP封面设计:NURIE CREATOR教程
10平米房间设计终极挑战:人类 vs AI,DIY极简主义胜出!
AI测试面试准备:提升你的面试技巧与知识储备
ChatGPT图像生成器完全指南:文化影响、伦理挑战与商业变革
提升阅读理解:策略、技巧和有效方法全面指南
微信AI数字人怎样创建_微信AI数字人创建流程与形象定制【教程】
教你用AI帮你进行论文选题,快速找到有研究价值的方向
Midjourney怎样生成网页图标_Midjourney图标生成教程【方法】
百度搜索ai助手怎么关闭 百度搜索ai对话屏蔽方法
掌握这几个AI提问技巧,帮你出个性化的求职信
ChatGPT官方入口 ChatGPT官网网页版访问步骤详解
智行ai抢票怎样设置抢票通道_智行ai抢票通道选择与速度优化【指南】
AI Agent:颠覆传统工作模式的关键力量
lovemo官网直达链接 lovemo网页版在线
百度AI助手官方入口 文心一言网页版登录入口
5分钟教你用AI生成短视频分镜脚本,小白也能拍大片
Sora AI:颠覆视频创作?OpenAI最新文生视频模型深度解析
豆包 AI 辅助进行初级绘本创作的剧情构思
百度输入法ai面板怎么关 百度输入法ai面板隐藏技巧
雷小兔ai智能写作怎么设置写作风格_雷小兔ai智能写作风格选择方法【指南】
AI赋能项目管理:5个实用技巧提升效率
唐库AI拆书工具如何提取核心观点_唐库AI拆书工具观点提取与标注方法【攻略】
Claude怎样写引导型提示词_Claude引导提示词写法【方法】
ChatGPT怎样用提示词分步骤提问_ChatGPT分步提问技巧【方法】
怎么用ai进行用户画像分析 AI消费行为与兴趣标签提炼【详解】
稿定设计AI抠图怎样处理复杂边缘_稿定设计AI复杂边缘细化技巧【技巧】
找不到百度AI助手入口 最新官网登录入口
Artist.ly AI Image Designer: 终极指南
百度ai助手通知栏怎么关 百度ai助手通知消息屏蔽
探索占星术:揭秘 कुंडली 中的 शुक्र,财富与运势的钥匙
ChatGPT怎样一键生成PPT_ChatGPT生成PPT方法【步骤】
AI赋能营销:角色、策略与工具选择全指南
腾讯混元图像3.0上线LiblibAI,80B参数助力创作者高效出图
ChatGPT怎么用一键生成活动策划案_ChatGPT策划案生成教程【攻略】
N8N自动化营销:无需编程实现AI智能获客
斑马AI怎么开启护眼模式_斑马AI护眼设置与使用时长限制【步骤】
解密Poppy Playtime怪物:全面解析玩具世界背后的故事
如何用AI自动生成Python代码 AI编程助手ChatGPT使用方法【教程】
DeepSeek AI:AI通用谜题解题器,解题思路全解析
AI员工工具详解:添加与移除指南,提升效率
ChatGPT官网免费使用入口 ChatGPT在线版官方地址
2023-05-31
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。