谷歌gemini的实力究竟如何?卡内基梅隆大学进行了一项专业客观的第三方比较
为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。
不会像谷歌官方发布会那样,用CoT@32对比5-shot了。
一句话结果:Gemini Pro版本接近但略逊于GPT-3.5 Turbo,GPT-4还是遥遥领先。
在深入分析中还发现Gemini一些奇怪特性,比如选择题喜欢选D……
有许多研究者表示,Gemini刚刚发布没几天就进行了非常详细的测试,这是非常了不起的成就
这个测试具体比较了6个不同的任务,并且为每个任务选择了相应的数据集
根据结果可以看出,在这类任务中使用思维链提示并不一定能够提升效果
在MMLU数据集中,所有的题目都是多选题。进一步分析结果后,发现了一个奇怪的现象:Gemini更喜欢选择D选项
GPT系列在4个选项上的分布就要平衡很多,团队提出这可能是Gemini没针对多选题做大量指令微调造成的。
另外,Gemini的安全过滤非常严格。在涉及道德问题时,它只能回答85%的问题。而在涉及人类性行为相关问题时,它只能回答28%的问题
Gemini Pro在安全研究和高中微观经济学方面的表现超过了GPT-3.5,但差距并不大,团队表示无法找出任何特别之处
GPT系列在处理更长、更复杂的问题时表现更出色,相比之下,Gemini Pro的表现较为不佳
特别是在长篇问题上,GPT-4 Turbo几乎没有性能下降,这表明它具备了理解复杂问题的强大能力
根据问题类型进行分析,Gemini在“追踪交换物品”这类问题上表现不佳,这类问题涉及人们进行物品交换,最终需要AI判断每个人拥有哪些物品
Gemini擅长的任务包括理解世界各种体育运动知识、操作符号堆栈、按字母顺序排序单词以及解析表格
问题本身太长,导致Gemini Pro和GPT-3.5的表现同时下降,只有GPT-4能够保持一贯的水准
当思维链的长度达到最长时,Gemini超过了GPT-3.5
对于代码问题,Gemini在参考答案较长的问题上表现不佳
GPT系列在大多数类型中更强大,但在matplotlib方面表现完全不佳
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
在翻译任务中,Gemini拒绝回答了12种类型的问题,但只要回答了的翻译质量都非常出色,整体表现
超过了GPT-4
双子座拒绝翻译的语言主要涉及拉丁语和阿拉伯语
WebArena为AI模拟了一个互联网环境,包括电子商务、社交论坛、GitLab协作开发、内容管理系统和在线地图等。AI需要在这个环境中查找信息或跨站点完成任务
Gemini在整体表现不如GPT-3.5 Turbo,但在跨多个站点的任务中表现稍好。
最终,CMU副教授格雷厄姆·纽比格承认了这项研究的一些限制
谷歌大型模型推理团队的负责人周登勇指出,将Gemini的温度设置为0可以提高5-10个百分点,对于推理任务非常有帮助
在这项测试中,除了Gemini和GPT系列,还引入了最近备受关注的开源MoE模型Mixtral
不过,强化学习专家Noam Brown认为可以不考虑Mixtral的结果,因为它使用的是第三方API而不是官方实现
Mistral AI创始人为团队提供了官方版调用权限,他相信这将带来更好的结果
虽然Gemini Pro还不及GPT-3.5,但它的优势在于每分钟调用不超过60次就可以免费使用
因此,许多个人开发者已经改变了阵营
目前Gemini的最高版本Ultra版尚未发布,届时CMU团队也打算继续进行这项研究
你认为双子座Ultra能够达到GPT-4的水平吗?
本文详细介绍了论文:https://arxiv.org/abs/2312.11444
参考链接:
[1]https://twitter.com/gneubig/status/1737108977954251216。
# 这类
# 这是
# 都是
# 的是
# 进行了
# 双子座
# 阿拉伯语
# 超过了
# 第三方
# 但在
# 谷歌
# gpt
# 个人开发
# https
# gitlab
# 堆
# 栈
# matplotlib
# gemini
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
LogMeIn Resolve:IT 运维知识库的 AI 赋能实践
批改网ai检测工具怎么设置检测严格度_批改网ai检测工具严格度调整【技巧】
Xcode 26 Beta 新功能:集成 ChatGPT 代码助手全面测评
深度学习姿态估计:技术、应用与未来趋势全解析
ChatGPT官方主页入口 ChatGPT网页版快速进入指南
怎么用AI帮你设计一套个性化的手机App图标?
Gemini手机端怎么发图片_Gemini手机端发图方法【步骤】
VideoInu AI 动画制作:教程、功能与Pro账户赠送
如何用AI根据职位描述(JD)定制你的求职信?
百度输入法蓝色图标怎么关 百度输入法ai图标消除
AI无镜头相机Paragraphica:颠覆传统摄影的新方式
Midjourney怎样加参数调细节_Midjourney参数调整技巧【指南】
lovemo手机网页版 lovemo官方入口地址
如何用AI帮你快速理解API文档?开发者必备高效技巧
即梦ai怎样生成插画作品_即梦ai插画生成入口与风格选择【教程】
AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答
探索古希腊之美:AI打造的绝|美女|神形象赏析
利用AI自动化回复Google Voice短信:终极指南
AI标语生成器:轻松打造品牌口号,提升品牌价值
Canva AI终极指南:释放AI力量,设计触手可及
Claude怎样写引导型提示词_Claude引导提示词写法【方法】
Google AI Studio Build模式更新:免费AI应用开发新纪元
教你用AI进行角色扮演对话,练习你的沟通和谈判技巧
DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】
百度输入法总是弹出ai 百度输入法ai自动弹出关闭
ChatGPT打造AI助手:10倍提升效率,掌控你的生活
雷小兔ai智能写作如何生成日记_雷小兔ai智能写作日记模板调用【步骤】
去哪旅行ai抢票助手怎样添加备选车次_去哪旅行ai抢票助手备选车次设置与切换【攻略】
百度ai助手快捷键怎么关 百度ai助手快捷键取消设置
讯飞星火怎样一键生成教案_讯飞星火教案生成与学科选择【教程】
MAKA AI排版怎样设置动画效果_MAKA AI排版动画添加与参数调整【技巧】
Claude怎么用新功能故事创作_Claude故事创作使用【方法】
雷小兔ai智能写作怎样导入素材_雷小兔ai智能写作素材上传与引用【技巧】
终极游戏工作站:帝王蝎椅沉浸式体验评测
教你用AI一键去除图片水印,操作简单效果惊人
ChatGPT 处理超长 PDF 文件的核心步骤
小米汽车OTA冬季大版本升级:新增和优化共计9项功能
lumen5怎样从新闻稿生成社交视频_Lumen5新闻稿转社交视频步骤【社媒】
播客数据深度解析:揭秘全球听众分布和增长策略
使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio
唐库AI拆书工具如何提取核心观点_唐库AI拆书工具观点提取与标注方法【攻略】
CodeRabbit CLI: AI 代码审查工具,提升编码效率与代码质量
教你用AI进行市场调研,快速生成消费者洞察报告
智行ai抢票能否抢下铺票_智行ai抢票下铺优先设置与成功率提升【技巧】
千问怎么使用插件功能_千问插件调用与功能扩展【教程】
京东旅行AI能否抢返程票_京东AI返程票预约与自动抢购【技巧】
钉钉ai划词工具怎样查看划词历史_钉钉ai划词工具历史记录查询【指南】
ChatGPT助力QA测试:提升效率与质量的终极指南
AI游戏革命:文本驱动,无限可能
ROBLOX Brookhaven:惊悚友谊与校园秘密(2025版)
2023-12-21
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。