一张图即出AI视频!谷歌全新扩散模型,让人物动起来


只需一张照片,和一段音频,就能直接生|成人|物说话的视频!

近日,来自谷歌的研究人员发布了多模态扩散模型VLOGGER,让我们朝着虚拟数字人又迈进了一步。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址:https://enriccorona.github.io/vlogger/paper.pdf

Vlogger可以收集单个输入图像,使用文本或者音频驱动,生|成人|类语音的视频,包括口型、表情、肢体动作等都非常自然。

我们先来看几个例子:

如果感觉视频使用别人的声音有点违和,小编帮你关掉声音:

可以看出整个生成的效果是非常优雅自然的。

VLOGGER建立在最近生成扩散模型的成功之上,包括一个将人类转成3D运动的模型,以及一个基于扩散的新架构,用于通过时间和空间控制,增强文本生成图像的效果。

VLOGGER可以生成可变长度的高质量视频,并且这些视频可以通过人脸和身体的高级表示轻松控制。

比如我们可以让生成视频中的人闭上嘴:

或者闭上双眼:

与之前的同类模型相比,VLOGGER不需要针对个体进行训练,不依赖于面部检测和裁剪,而且包含了肢体动作、躯干和背景,——构成了可以交流的正常的人类表现。

AI的声音、AI的表情、AI的动作、AI的场景,人类开始的价值是提供数据,再往后可能就没什么价值了?

在数据方面,研究人员收集了一个新的、多样化的数据集MENTOR,比之前的同类数据集大了整整一个数量级,其中训练集包括2200小时、800000个不同个体,测试集为120小时、4000个不同身份的人。

研究人员在三个不同的基准上评估了VLOGGER,表明模型在图像质量、身份保存和时间一致性方面达到了目前的最优。

VLOGGER

VLOGGER的目标是生成一个可变长度的逼真视频,来描绘目标人说话的整个过程,包括头部动作和手势。

如上图所示,给定第1列所示的单个输入图像和一个示例音频输入,右列中展示了一系列合成图像。

包括生成头部运动、凝视、眨眼、嘴唇运动,还有以前模型做不到的一点,生成上半身和手势,这是音频驱动合成的一大进步。

VLOGGER采用了基于随机扩散模型的两阶段管道,用于模拟从语音到视频的一对多映射。

第一个网络将音频波形作为输入,以生成身体运动控制,负责目标视频长度上的凝视、面部表情和姿势。

第二个网络是一个包含时间的图像到图像的平移模型,它扩展了大型图像扩散模型,采用预测的身体控制来生成相应的帧。为了使这个过程符合特定身份,网络获取了目标人的参考图像。

VLOGGER使用基于统计的3D身体模型,来调节视频生成过程。给定输入图像,预测的形状参数对目标标识的几何属性进行编码。

首先,网络M获取输入语音,并生成一系列N帧的3D面部表情和身体姿势。

然后渲染移动3D身体的密集表示,以在视频生成阶段充当2D控件。这些图像与输入图像一起作为时间扩散模型和超分辨率模块的输入。

音频驱动的运动生成

管道的第一个网络旨在根据输入语音预测运动。此外还通过文本转语音模型将输入文本转换为波形,并将生成的音频表示为标准梅尔频谱图(Mel-Spectrograms)。

管道基于Transformer架构,在时间维度上有四个多头注意力层。包括帧数和扩散步长的位置编码,以及用于输入音频和扩散步骤的嵌入MLP。

在每一帧中,使用因果掩码使模型只关注前一帧。模型使用可变长度的视频进行训练(比如TalkingHead-1KH数据集),以生成非常长的序列。

研究人员采用基于统计的3D人体模型的估计参数,来为合成视频生成中间控制表示。

模型同时考虑了面部表情和身体运动,以生成更好的表现力和动态的手势。

此外,以前的面部生成工作通常依赖于扭曲(warped)的图像,但在基于扩散的架构中,这个方法被忽视了。

作者建议使用扭曲的图像来指导生成过程,这促进了网络的任务并有助于保持人物的主体身份。

生成会说话和移动的人类

下一个目标是对一个人的输入图像进行动作处理,使其遵循先前预测的身体和面部运动。

受ControlNet的启发,研究人员冻结了初始训练的模型,并采用输入时间控件,制作了编码层的零初始化可训练副本。

作者在时间域中交错一维卷积层,网络通过获取连续的N帧和控件进行训练,并根据输入控件生成参考人物的动作视频。

模型使用作者构建的MENTOR数据集进行训练,因为在训练过程中,网络会获取一系列连续的帧和任意的参考图像,因此理论上可以将任何视频帧指定为参考。

不过在实践中,作者选择采样离目标剪辑更远的参考,因为较近的示例提供的泛化潜力较小。

网络分两个阶段进行训练,首先在单帧上学习新的控制层,然后通过添加时间分量对视频进行训练。这样就可以在第一阶段使用大批量,并更快地学习头部重演任务。

作者采用的learning rate为5e-5,两个阶段都以400k的步长和128的批量大小训练图像模型。

多样性

下图展示了从一个输入图片生成目标视频的多样化分布。最右边一列显示了从80个生成的视频中获得的像素多样性。

在背景保持固定的情况下,人的头部和身体显著移动(红色意味着像素颜色的多样性更高),并且,尽管存在多样性,但所有视频看起来都很逼真。

视频编辑

模型的应用之一是编辑现有视频。在这种情况下,VLOGGER会拍摄视频,并通过闭上嘴巴或眼睛等方式改变拍摄对象的表情。

在实践中,作者利用扩散模型的灵活性,对应该更改的图像部分进行修复,使视频编辑与原始未更改的像素保持一致。

视频翻译

模型的主要应用之一是视频翻译。在这种情况下,VLOGGER会以特定语言拍摄现有视频,并编辑嘴唇和面部区域以与新音频(例如西班牙语)保持一致。


# 视频编辑  # 架构  # 对象  # github  # transformer  # https  # 的人  # 第一个  # 一是  # 闭上  # 所示  # 在这种情况下  # 在实践中  # 西班牙语  # 是一个  # 这是 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 夸克AI能否查快递物流_夸克AI快递查询入口与单号输入【步骤】  Vivo V50e 5G AI功能:最佳AI特性深度解析  批改网ai检测工具怎么导出检测结果_批改网ai检测工具报告导出与格式选择【指南】  11月电动两轮车线上销售排名出炉:九号份额达26.9%  如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧  tofai入口官方网站 tofai网页版入口地址  一键改变发型:Gemini AI 助你轻松打造时尚造型  孩子作文写不出来?教你用AI引导孩子构思,写出优秀范文  教你用AI一键去除图片水印,操作简单效果惊人  播客成功的秘诀:打造高转化率的内容和社区  秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】  New You KIN Skin Analyzer:焕发肌肤新生的终极指南  Descript vs. Wisecut:AI视频编辑工具深度测评与最佳选择  AI Vibe Coding: 快速打造落地页,低代码平台实战教程  经济型游戏PC构建指南:30000卢比畅玩3A游戏  AI vs. 人工书籍教练:哪个更适合你?终极指南  AMD Ryzen 2025 CPU深度解析:新品发布与选购指南  通义千问网页版怎么清历史_通义千问历史清理方法【方法】  AI社交媒体自动化:n8n与HeyGen打造个性化内容引擎  Comet浏览器:使用ChatGPT增强您的搜索体验  Removebg怎样快速抠图_Removebg上传图片与自动抠图步骤【教程】  专家:26年1月中国车市将实现“开门红” 高端增长强劲  掌握写作技巧:小说情节设计的核心要素解析  AI猴子视频制作终极指南:从入门到网红,轻松上手!  AI人像摄影新纪元:Gemini AI助力照片编辑  RPGGO AI:颠覆传统!2D游戏创作新纪元  EdrawMind终极评测:AI赋能思维导图,提升效率与创造力  随机故事生成器:激发创意,轻松创作精彩故事  教你用AI一键生成Excel VBA脚本,彻底告别重复操作  AI驱动KDP封面设计:NURIE CREATOR教程  AI驱动的Web应用测试:突破QA挑战,提升用户体验  1-11月30万元以上插电混动车型销量榜:问界双车前二  使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio  智谱AI绘画怎么用_智谱AI绘画使用方法详细指南【教程】  Mermaid Playground: AI驱动的图表秒速创建指南  消除噪音,提升音质:Audo.ai终极指南  AI数字人教程:轻松打造专属YouTube虚拟形象  留学文书PS怎么写?教你用AI写出招生官眼前一亮的个人陈述  看我如何用AI辅助写作,在10分钟内搞0. AI求职信写作避坑指南:千万别犯这几个错误  正确安装梁托:终极指南与常见错误规避  Mac百度输入法ai怎么关 Mac版百度ai助手禁用教程  如何用AI生成正则表达式?再也不怕复杂的文本匹配  终极人声移除器UVR5:AI驱动的免费开源音频处理神器  AI产品经理:AI赋能与AI原生,未来PM的技能演进  Depseek怎么生成员工成长总结_Depseek成长维度提取与案例整合【方法】  利用 ChatGPT 进行高质量代码重构与优化  利用 ChatGPT 进行复杂数学公式的推导教程  AI PPT生成工具有哪些_一键生成演示文稿的AI工具推荐  寓言故事:狮子与老鼠,学习英语的趣味童话之旅  豆包AI怎么生成员工成长总结_豆包AI成长指标提取与案例编写【方法】 

 2024-03-28

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.