只需一张照片,和一段音频,就能直接生|成人|物说话的视频!
近日,来
自谷歌的研究人员发布了多模态扩散模型VLOGGER,让我们朝着虚拟数字人又迈进了一步。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
论文地址:https://enriccorona.github.io/vlogger/paper.pdf
Vlogger可以收集单个输入图像,使用文本或者音频驱动,生|成人|类语音的视频,包括口型、表情、肢体动作等都非常自然。
我们先来看几个例子:
如果感觉视频使用别人的声音有点违和,小编帮你关掉声音:
可以看出整个生成的效果是非常优雅自然的。
VLOGGER建立在最近生成扩散模型的成功之上,包括一个将人类转成3D运动的模型,以及一个基于扩散的新架构,用于通过时间和空间控制,增强文本生成图像的效果。
VLOGGER可以生成可变长度的高质量视频,并且这些视频可以通过人脸和身体的高级表示轻松控制。
比如我们可以让生成视频中的人闭上嘴:
或者闭上双眼:
与之前的同类模型相比,VLOGGER不需要针对个体进行训练,不依赖于面部检测和裁剪,而且包含了肢体动作、躯干和背景,——构成了可以交流的正常的人类表现。
AI的声音、AI的表情、AI的动作、AI的场景,人类开始的价值是提供数据,再往后可能就没什么价值了?
在数据方面,研究人员收集了一个新的、多样化的数据集MENTOR,比之前的同类数据集大了整整一个数量级,其中训练集包括2200小时、800000个不同个体,测试集为120小时、4000个不同身份的人。
研究人员在三个不同的基准上评估了VLOGGER,表明模型在图像质量、身份保存和时间一致性方面达到了目前的最优。
VLOGGER的目标是生成一个可变长度的逼真视频,来描绘目标人说话的整个过程,包括头部动作和手势。
如上图所示,给定第1列所示的单个输入图像和一个示例音频输入,右列中展示了一系列合成图像。
包括生成头部运动、凝视、眨眼、嘴唇运动,还有以前模型做不到的一点,生成上半身和手势,这是音频驱动合成的一大进步。
VLOGGER采用了基于随机扩散模型的两阶段管道,用于模拟从语音到视频的一对多映射。
第一个网络将音频波形作为输入,以生成身体运动控制,负责目标视频长度上的凝视、面部表情和姿势。
第二个网络是一个包含时间的图像到图像的平移模型,它扩展了大型图像扩散模型,采用预测的身体控制来生成相应的帧。为了使这个过程符合特定身份,网络获取了目标人的参考图像。
VLOGGER使用基于统计的3D身体模型,来调节视频生成过程。给定输入图像,预测的形状参数对目标标识的几何属性进行编码。
首先,网络M获取输入语音,并生成一系列N帧的3D面部表情和身体姿势。
然后渲染移动3D身体的密集表示,以在视频生成阶段充当2D控件。这些图像与输入图像一起作为时间扩散模型和超分辨率模块的输入。
管道的第一个网络旨在根据输入语音预测运动。此外还通过文本转语音模型将输入文本转换为波形,并将生成的音频表示为标准梅尔频谱图(Mel-Spectrograms)。
管道基于Transformer架构,在时间维度上有四个多头注意力层。包括帧数和扩散步长的位置编码,以及用于输入音频和扩散步骤的嵌入MLP。
在每一帧中,使用因果掩码使模型只关注前一帧。模型使用可变长度的视频进行训练(比如TalkingHead-1KH数据集),以生成非常长的序列。
研究人员采用基于统计的3D人体模型的估计参数,来为合成视频生成中间控制表示。
模型同时考虑了面部表情和身体运动,以生成更好的表现力和动态的手势。
此外,以前的面部生成工作通常依赖于扭曲(warped)的图像,但在基于扩散的架构中,这个方法被忽视了。
作者建议使用扭曲的图像来指导生成过程,这促进了网络的任务并有助于保持人物的主体身份。
下一个目标是对一个人的输入图像进行动作处理,使其遵循先前预测的身体和面部运动。
受ControlNet的启发,研究人员冻结了初始训练的模型,并采用输入时间控件,制作了编码层的零初始化可训练副本。
作者在时间域中交错一维卷积层,网络通过获取连续的N帧和控件进行训练,并根据输入控件生成参考人物的动作视频。
模型使用作者构建的MENTOR数据集进行训练,因为在训练过程中,网络会获取一系列连续的帧和任意的参考图像,因此理论上可以将任何视频帧指定为参考。
不过在实践中,作者选择采样离目标剪辑更远的参考,因为较近的示例提供的泛化潜力较小。
网络分两个阶段进行训练,首先在单帧上学习新的控制层,然后通过添加时间分量对视频进行训练。这样就可以在第一阶段使用大批量,并更快地学习头部重演任务。
作者采用的learning rate为5e-5,两个阶段都以400k的步长和128的批量大小训练图像模型。
下图展示了从一个输入图片生成目标视频的多样化分布。最右边一列显示了从80个生成的视频中获得的像素多样性。
在背景保持固定的情况下,人的头部和身体显著移动(红色意味着像素颜色的多样性更高),并且,尽管存在多样性,但所有视频看起来都很逼真。
模型的应用之一是编辑现有视频。在这种情况下,VLOGGER会拍摄视频,并通过闭上嘴巴或眼睛等方式改变拍摄对象的表情。
在实践中,作者利用扩散模型的灵活性,对应该更改的图像部分进行修复,使视频编辑与原始未更改的像素保持一致。
模型的主要应用之一是视频翻译。在这种情况下,VLOGGER会以特定语言拍摄现有视频,并编辑嘴唇和面部区域以与新音频(例如西班牙语)保持一致。
# 视频编辑
# 架构
# 对象
# github
# transformer
# https
# 的人
# 第一个
# 一是
# 闭上
# 所示
# 在这种情况下
# 在实践中
# 西班牙语
# 是一个
# 这是
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
网络优化91478 】
【
技术知识72672 】
【
云计算0 】
【
GEO优化84317 】
【
优选文章0 】
【
营销推广36048 】
【
网络运营41350 】
【
案例网站102563 】
【
AI智能45237 】
相关推荐:
夸克AI能否查快递物流_夸克AI快递查询入口与单号输入【步骤】
Vivo V50e 5G AI功能:最佳AI特性深度解析
批改网ai检测工具怎么导出检测结果_批改网ai检测工具报告导出与格式选择【指南】
11月电动两轮车线上销售排名出炉:九号份额达26.9%
如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧
tofai入口官方网站 tofai网页版入口地址
一键改变发型:Gemini AI 助你轻松打造时尚造型
孩子作文写不出来?教你用AI引导孩子构思,写出优秀范文
教你用AI一键去除图片水印,操作简单效果惊人
播客成功的秘诀:打造高转化率的内容和社区
秀米AI智能排版怎样生成节日专题模板_秀米AI智能排版节日模板调用【技巧】
New You KIN Skin Analyzer:焕发肌肤新生的终极指南
Descript vs. Wisecut:AI视频编辑工具深度测评与最佳选择
AI Vibe Coding: 快速打造落地页,低代码平台实战教程
经济型游戏PC构建指南:30000卢比畅玩3A游戏
AI vs. 人工书籍教练:哪个更适合你?终极指南
AMD Ryzen 2025 CPU深度解析:新品发布与选购指南
通义千问网页版怎么清历史_通义千问历史清理方法【方法】
AI社交媒体自动化:n8n与HeyGen打造个性化内容引擎
Comet浏览器:使用ChatGPT增强您的搜索体验
Removebg怎样快速抠图_Removebg上传图片与自动抠图步骤【教程】
专家:26年1月中国车市将实现“开门红” 高端增长强劲
掌握写作技巧:小说情节设计的核心要素解析
AI猴子视频制作终极指南:从入门到网红,轻松上手!
AI人像摄影新纪元:Gemini AI助力照片编辑
RPGGO AI:颠覆传统!2D游戏创作新纪元
EdrawMind终极评测:AI赋能思维导图,提升效率与创造力
随机故事生成器:激发创意,轻松创作精彩故事
教你用AI一键生成Excel VBA脚本,彻底告别重复操作
AI驱动KDP封面设计:NURIE CREATOR教程
AI驱动的Web应用测试:突破QA挑战,提升用户体验
1-11月30万元以上插电混动车型销量榜:问界双车前二
使用AI代码生成器轻松构建Web应用程序:Beela vs. Google AI Studio
智谱AI绘画怎么用_智谱AI绘画使用方法详细指南【教程】
Mermaid Playground: AI驱动的图表秒速创建指南
消除噪音,提升音质:Audo.ai终极指南
AI数字人教程:轻松打造专属YouTube虚拟形象
留学文书PS怎么写?教你用AI写出招生官眼前一亮的个人陈述
看我如何用AI辅助写作,在10分钟内搞0. AI求职信写作避坑指南:千万别犯这几个错误
正确安装梁托:终极指南与常见错误规避
Mac百度输入法ai怎么关 Mac版百度ai助手禁用教程
如何用AI生成正则表达式?再也不怕复杂的文本匹配
终极人声移除器UVR5:AI驱动的免费开源音频处理神器
AI产品经理:AI赋能与AI原生,未来PM的技能演进
Depseek怎么生成员工成长总结_Depseek成长维度提取与案例整合【方法】
利用 ChatGPT 进行高质量代码重构与优化
利用 ChatGPT 进行复杂数学公式的推导教程
AI PPT生成工具有哪些_一键生成演示文稿的AI工具推荐
寓言故事:狮子与老鼠,学习英语的趣味童话之旅
豆包AI怎么生成员工成长总结_豆包AI成长指标提取与案例编写【方法】
2024-03-28
南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。