效率碾压DALL·E 2和Imagen,谷歌新模型达成新SOTA,还能一句话搞定PS


新年伊始,谷歌AI又开始发力文字-图像生成模型了。

这次,他们的新模型Muse(缪斯)在CC3M数据集上达成了新SOTA(目前最佳水平)。

而且其效率远超火爆全球的DALL·E 2和Imagen (这俩都属于扩散模型),以及Parti (属于自回归模型)。

——单张512x512分辨率图像的生成时间被压缩到仅1.3秒。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在图像编辑方面,只需一句文字指令,就可以对原始图像进行编辑。

(貌似不用再为学ps头秃了~)

如果想要效果更精准,还能选定遮罩位置,编辑特定区域。比如,把背景的建筑换成热气球。

Muse一经官宣,很快吸引了大波关注,目前原贴已收获4000+点赞。

看到谷歌的又一力作,有人甚至已经开始预言:

现在AI开发者的竞争非常激烈,看来2025将是非常精彩的一年。


比DALL·E 2和Imagen更高效

说回谷歌刚刚公开的Muse。

首先,就生成图片的质量来说,Muse的作品大都画质清晰、效果自然。

来看看更多例子感受一下~

比如戴着毛线帽的树懒宝宝正在操作电脑;再比如酒杯中的一只羊:

平时八竿子打不着的各种主体,在一张图里和谐共存,没啥违和感。

要是你觉得这些还只能算AIGC的基操,那不妨再看看Muse的编辑功能。

比如一键换装(还能换性别):

这既不需要加什么遮罩,还能一句话搞定。

而如果用上遮罩的话,就能实现更6的操作,包括一键切换背景,从原地切换到纽约、巴黎、再到旧金山。


还能从海边到伦敦、到花海,甚至飞到太空中的土星环上,玩一把刺激的滑板海豚跳。

(好家伙,不仅能轻松云旅游,还能一键上天......)

效果着实挺出色。那Muse背后都有哪些技术支持?为什么效率比DALL·E 2和Imagen更高?

一个重要的原因是,DALL·E 2和Imagen在训练过程中,需要将所有学到的知识都存储在模型参数中。

于是,它们不得不需要越来越大的模型、越来越多的训练数据来获取更多知识——将Better和Bigger绑在了一起。

代价就是参数量巨大,效率也受到了影响。

而据谷歌AI团队介绍,他们采用的主要方法名曰:掩码图像建模 (Masked image modeling)。

这是一种新兴的自监督预训练方法,其基本思想简单来说就是:

输入图像的一部分被随机屏蔽掉,然后通过预训练文本任务进行重建。

Muse模型在离散标记的空间掩码上训练,并结合从预训练语言大模型中提取的文本,预测随机遮蔽的图像标记。

从上到下依次为:预训练的文本编码器、基础模型、超分辨率模型

谷歌团队发现,使用预先训练好的大语言模型,可以让AI对语言的理解更加细致透彻。

就输出而言,由于AI对物体的空间关系、姿态等要素把握得很不错,所以生成的图像可以做到高保真。

与DALL·E 2、Imagen等像素空间的扩散模型相比,Muse用的是离散的token,并且采样迭代较少。

另外,和Parti等自回归模型相比,Muse使用了并行解码,效率也更高。

FID上获SOTA得分

前文提到,Muse不仅在效率上取得了提升,在生成图像质量上也非常优秀。

研究者把它与DALL·E、LAFITE、LDM、GLIDE、DALL·E 2,以及谷歌自家的Imagen和Parti进行PK,测试了它们的FID和CLIP分数。

(FID分数用于评估生成图像的质量,分数越低质量越高;CLIP分数则代表文本与图像的契合程度,分数越高越好。)

结果显示,Muse-3B模型在COCO验证集中的zero-shot FID-30K得分为7.88,仅次于参数更大的Imagen-3.4B和Parti-20B模型。

更优秀的是,Muse-900M模型在CC3M数据集上实现了新的SOTA,FID得分为6.06,这也意味着它与文字的匹配度是最高的。

同时,该模型的CLIP分数为0.26,也达到了同期最高水平。

除此之外,为了进一步证实Muse的出图效率,研究者还对比了Muse与其他模型的单张图像生成时间:

在256x256、512x512的分辨率上Muse均达到了最快速度:0.5s和1.3s。

研究团队

Muse的研究团队来自谷歌,两位共同一作分别是Huiwen Chang和Han Zhang。

Huiwen Chang,现为谷歌高级研究员。

她本科就读于清华大学,博士毕业于普林斯顿大学,有过在Adobe、Facebook等的实习经历。

Han Zhang,本科毕业于中国农业大学,硕士就读于北京邮电大学,后在罗格斯大学取得了计算机科学博士学位。

其研究方向是计算机视觉,深度学习和医学图像分析等。

不过值得一提的是,目前Muse还没有正式发布。

有网友调侃,虽然它应该很香,但以谷歌的“尿性”,Muse离正式发布可能还有很长时间——毕竟他们还有18年的AI都没发呢。

话说回来,你觉得Muse的效果怎么样?

对于其正式发布之事,有木有一点期待?

传送门:​​https://www./link/854f1fb6f65734d9e49f708d6cd84ad6​​

参考链接:https://twitter.com/AlphaSignalAI/status/1610404589966180360​


# 的是  # 普林斯顿  # 越高  # 你觉得  # 更高  # 达到了  # 不需要  # 正式发布  # 一键  # php  # 还能  # AIGC  # https  # Imagen  # DALL·E 2  # glide  # Token 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 豆包AI怎么查看个人主页_管理账号信息与偏好设置  豆包Ai在线使用入口_豆包Ai官方网站最新登录地址  如何通过 DeepSeek 优化 Kubernetes 配置文件  汽车“以旧换新”补贴升级:2026年置换最高补1.5万元  Jasper AI的Recipes是什么 Jasper AI配方功能使用【详解】  LeetCode算法:最长公共前缀问题全面解析  11月问界汽车哪里卖的多?成都力压北上广深位居第一  怎么用ai写产品说明书 AI功能介绍与使用步骤详解【实操】  Ignite & Sell Assistant:AI 邮件营销终极指南  Gemini怎样用语音输入_Gemini语音输入设置【方法】  教你用AI帮你生成一份详细的搬家清单,告别手忙脚乱  百度AI对话助手入口 智能聊天机器人入口  解读 Karan Aujla:如何用音乐连接全球与故土?  怎么用AI帮你为初创公司进行市场定位分析?  ChatGPT 处理非结构化数据并转换为 JSON 格式  AI任务管理器终极评测:找到最适合你的效率神器  lovemo手机网页版 lovemo官方入口地址  Napkin AI:AI驱动的文本可视化工具,轻松创建思维导图  AI驱动的自动化工作流:Zapier、Perplexity和Claude集成指南  Filmora 13 AI音乐生成器:创意视频配乐新纪元  QuickBooks Desktop 到 Online 迁移指南:轻松转移您的公司数据  Sim.AI教程:构建智能客户支持助手  AI如何革新心理健康诊断:从症状检查到大脑分析  Semrush AI标题生成器:免费提升SEO和内容创作效率  AI音频增强和视频背景替换终极指南  DiagramMagic:AI驱动的在线图表生成器终极指南  3步教你用AI将你的博客文章改编成引人入胜的播客脚本  文心一言辅助学习方法 解决难题与知识点梳理使用指南  AI赋能副业:五大掘金机会,轻松开启智能创收时代  利用AI快速生成数组和枚举:详细指南与实用技巧  Midjourney怎样生成网页图标_Midjourney图标生成教程【方法】  豆包 AI 辅助进行家庭装修风格对比分析  使用文心一言进行高质量的唐诗宋词创意改编  Claude如何关闭自动续费_Claude续费关闭方法【方法】  百度ai助手任务栏怎么关 百度ai助手任务栏图标隐藏  利用AI自动化回复Google Voice短信:终极指南  AI电影制作:颠覆传统,引领未来*新纪元  2025年最佳AI流程图工具:效率提升秘籍  Xcode 26 Beta 新功能:集成 ChatGPT 代码助手全面测评  Midjourney怎样做PPT模板_MidjourneyPPT模板生成【方法】  MediCa AI:AI赋能的智能医疗保健平台全面解析  AI无镜头相机Paragraphica:颠覆传统摄影的新方式  掌握这几个AI提问技巧,帮你出个性化的求职信  打造迷人外表:AI技术揭秘面部美学比例与颜值提升  AI数字人教程:轻松打造专属YouTube虚拟形象  ASUS Armoury Crate深度评测:最新功能与个性化定制  135编辑器AI排版怎样快速上手_135编辑器AI排版新手入门与功能介绍【教程】  佐糖AI抠图能否识别商品白底_佐糖AI电商白底图自动处理流程【教程】  AI赋能保险销售:提升邮件营销效果的终极指南  讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】 

 2023-04-11

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.