CMU进行详细比较研究,发现GPT-3.5比Gemini Pro更优,确保公平透明可重复性


谷歌gemini的实力究竟如何?卡内基梅隆大学进行了一项专业客观的第三方比较

为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果

不会像谷歌官方发布会那样,用CoT@32对比5-shot了。

一句话结果:Gemini Pro版本接近但略逊于GPT-3.5 Turbo,GPT-4还是遥遥领先。

在深入分析中还发现Gemini一些奇怪特性,比如选择题喜欢选D……

有许多研究者表示,Gemini刚刚发布没几天就进行了非常详细的测试,这是非常了不起的成就

六大任务深入测试

这个测试具体比较了6个不同的任务,并且为每个任务选择了相应的数据集

  • 知识问答:MMLU
  • 推理:BIG-Bench Hard
  • 数学:GSM8k、SVAMP、ASDIV、MAWPS
  • 代码:HumanEval、ODEX
  • 翻译:FLORES
  • 上网冲浪:WebArena

知识问答:喜欢选D

根据结果可以看出,在这类任务中使用思维链提示并不一定能够提升效果

在MMLU数据集中,所有的题目都是多选题。进一步分析结果后,发现了一个奇怪的现象:Gemini更喜欢选择D选项

GPT系列在4个选项上的分布就要平衡很多,团队提出这可能是Gemini没针对多选题做大量指令微调造成的

另外,Gemini的安全过滤非常严格。在涉及道德问题时,它只能回答85%的问题。而在涉及人类性行为相关问题时,它只能回答28%的问题

Gemini Pro在安全研究和高中微观经济学方面的表现超过了GPT-3.5,但差距并不大,团队表示无法找出任何特别之处

推理:长问题不擅长

GPT系列在处理更长、更复杂的问题时表现更出色,相比之下,Gemini Pro的表现较为不佳

特别是在长篇问题上,GPT-4 Turbo几乎没有性能下降,这表明它具备了理解复杂问题的强大能力

根据问题类型进行分析,Gemini在“追踪交换物品”这类问题上表现不佳,这类问题涉及人们进行物品交换,最终需要AI判断每个人拥有哪些物品

Gemini擅长的任务包括理解世界各种体育运动知识、操作符号堆栈、按字母顺序排序单词以及解析表格

数学:复杂任务反超

问题本身太长,导致Gemini Pro和GPT-3.5的表现同时下降,只有GPT-4能够保持一贯的水准

当思维链的长度达到最长时,Gemini超过了GPT-3.5

代码:擅长matplotlib

对于代码问题,Gemini在参考答案较长的问题上表现不佳

GPT系列在大多数类型中更强大,但在matplotlib方面表现完全不佳

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

翻译:只要回答了,质量就很高

在翻译任务中,Gemini拒绝回答了12种类型的问题,但只要回答了的翻译质量都非常出色,整体表现超过了GPT-4

双子座拒绝翻译的语言主要涉及拉丁语和阿拉伯语

网络导航:擅长跨站点冲浪

WebArena为AI模拟了一个互联网环境,包括电子商务、社交论坛、GitLab协作开发、内容管理系统和在线地图等。AI需要在这个环境中查找信息或跨站点完成任务

Gemini在整体表现不如GPT-3.5 Turbo,但在跨多个站点的任务中表现稍好。

网友:但是它免费啊

最终,CMU副教授格雷厄姆·纽比格承认了这项研究的一些限制

  • 基于API的模型行为可能随时变化
  • 只尝试了有限数量的提示,对不同模型来说适用的提示词可能不一样
  • 无法控制测试集是否泄露

谷歌大型模型推理团队的负责人周登勇指出,将Gemini的温度设置为0可以提高5-10个百分点,对于推理任务非常有帮助

在这项测试中,除了Gemini和GPT系列,还引入了最近备受关注的开源MoE模型Mixtral

不过,强化学习专家Noam Brown认为可以不考虑Mixtral的结果,因为它使用的是第三方API而不是官方实现

Mistral AI创始人为团队提供了官方版调用权限,他相信这将带来更好的结果

虽然Gemini Pro还不及GPT-3.5,但它的优势在于每分钟调用不超过60次就可以免费使用

因此,许多个人开发者已经改变了阵营

目前Gemini的最高版本Ultra版尚未发布,届时CMU团队也打算继续进行这项研究

你认为双子座Ultra能够达到GPT-4的水平吗?

本文详细介绍了论文:https://arxiv.org/abs/2312.11444

参考链接:
[1]https://twitter.com/gneubig/status/1737108977954251216。


# 这类  # 这是  # 都是  # 的是  # 进行了  # 双子座  # 阿拉伯语  # 超过了  # 第三方  # 但在  # 谷歌  # gpt  # 个人开发  # https  # gitlab  #   #   # matplotlib  # gemini 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: LogMeIn Resolve:IT 运维知识库的 AI 赋能实践  批改网ai检测工具怎么设置检测严格度_批改网ai检测工具严格度调整【技巧】  Xcode 26 Beta 新功能:集成 ChatGPT 代码助手全面测评  深度学习姿态估计:技术、应用与未来趋势全解析  ChatGPT官方主页入口 ChatGPT网页版快速进入指南  怎么用AI帮你设计一套个性化的手机App图标?  Gemini手机端怎么发图片_Gemini手机端发图方法【步骤】  VideoInu AI 动画制作:教程、功能与Pro账户赠送  如何用AI根据职位描述(JD)定制你的求职信?  百度输入法蓝色图标怎么关 百度输入法ai图标消除  AI无镜头相机Paragraphica:颠覆传统摄影的新方式  Midjourney怎样加参数调细节_Midjourney参数调整技巧【指南】  lovemo手机网页版 lovemo官方入口地址  如何用AI帮你快速理解API文档?开发者必备高效技巧  即梦ai怎样生成插画作品_即梦ai插画生成入口与风格选择【教程】  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  探索古希腊之美:AI打造的绝|美女|神形象赏析  利用AI自动化回复Google Voice短信:终极指南  AI标语生成器:轻松打造品牌口号,提升品牌价值  Canva AI终极指南:释放AI力量,设计触手可及  Claude怎样写引导型提示词_Claude引导提示词写法【方法】  Google AI Studio Build模式更新:免费AI应用开发新纪元  教你用AI进行角色扮演对话,练习你的沟通和谈判技巧  DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】  百度输入法总是弹出ai 百度输入法ai自动弹出关闭  ChatGPT打造AI助手:10倍提升效率,掌控你的生活  雷小兔ai智能写作如何生成日记_雷小兔ai智能写作日记模板调用【步骤】  去哪旅行ai抢票助手怎样添加备选车次_去哪旅行ai抢票助手备选车次设置与切换【攻略】  百度ai助手快捷键怎么关 百度ai助手快捷键取消设置  讯飞星火怎样一键生成教案_讯飞星火教案生成与学科选择【教程】  MAKA AI排版怎样设置动画效果_MAKA AI排版动画添加与参数调整【技巧】  Claude怎么用新功能故事创作_Claude故事创作使用【方法】  雷小兔ai智能写作怎样导入素材_雷小兔ai智能写作素材上传与引用【技巧】  终极游戏工作站:帝王蝎椅沉浸式体验评测  教你用AI一键去除图片水印,操作简单效果惊人  ChatGPT 处理超长 PDF 文件的核心步骤  小米汽车OTA冬季大版本升级:新增和优化共计9项功能  lumen5怎样从新闻稿生成社交视频_Lumen5新闻稿转社交视频步骤【社媒】  播客数据深度解析:揭秘全球听众分布和增长策略  使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio  唐库AI拆书工具如何提取核心观点_唐库AI拆书工具观点提取与标注方法【攻略】  CodeRabbit CLI: AI 代码审查工具,提升编码效率与代码质量  教你用AI进行市场调研,快速生成消费者洞察报告  智行ai抢票能否抢下铺票_智行ai抢票下铺优先设置与成功率提升【技巧】  千问怎么使用插件功能_千问插件调用与功能扩展【教程】  京东旅行AI能否抢返程票_京东AI返程票预约与自动抢购【技巧】  钉钉ai划词工具怎样查看划词历史_钉钉ai划词工具历史记录查询【指南】  ChatGPT助力QA测试:提升效率与质量的终极指南  AI游戏革命:文本驱动,无限可能  ROBLOX Brookhaven:惊悚友谊与校园秘密(2025版) 

 2023-12-21

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.