FantasyTalking— 阿里联合北邮推出静态肖像生成可控数字人的框架


FantasyTalking是什么

fantasytalking 是阿里巴巴 amap 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性,通过运动强度调制模块实现对表情和身体运动强度的控制。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

FantasyTalking的主要功能

  • 口型同步:能准确识别并同步虚拟角色的口型与输入语音,使角色在说话时的口型与语音内容完全一致,增强了角色的真实感和可信度。
  • 面部动作生成:根据语音内容和情感信息,生成相应的面部动作,如眨眼、皱眉、微笑等,使虚拟角色的表情更加丰富和生动。
  • 全身动作生成:能根据场景和情节需要,生*身的动作和姿态,如行走、奔跑、跳跃等,使虚拟角色在动画中更加自然和流畅。
  • 运动强度控制:通过运动强度调制模块,用户可以显式控制面部表情和身体运动的强度,实现对肖像运动的可控操纵,不仅限于唇部运动。
  • 多种风格支持:支持多种风格的虚拟形象,写实风格、卡通风格,能生成高质量的对话视频。
  • 多种姿态支持:支持生成具有各种身体范围和朝向的逼真说话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

FantasyTalking的技术原理

  • 双阶段视听对齐策略
    • 片段级训练:在第一阶段,通过片段级训练方案,模型会捕捉音频与整个场景(包括参考肖像、上下文对象和背景)之间的弱相关性,建立全局的视听依赖关系,实现整体特征融合。使模型能学习到与音频相关的非语言线索(如眉毛运动、肩膀动作)和强音频同步的唇部动态。
    • 帧级训练:在第二阶段,模型专注于帧级与音频高度相关的视觉特征细化,特别是唇部动作。通过使用唇部追踪掩码,模型能确保唇部运动与音频信号精确对齐,提高生成视频的质量。
  • 身份保持:传统的参考网络方法通常会限制视频中人物和背景的大范围自然变化。FantasyTalking 采用面部专注的交叉注意力模块,集中建模面部区域,通过交叉注意力机制解耦身份保留与动作生成。更轻量级,能解放对背景和人物自然运动的限制,确保在整个生成的视频序列中保持角色的身份特征。
  • 运动强度调节:FantasyTalking 引入了运动强度调制模块,能显式控制面部表情和身体运动的强度。使用户可以对肖像运动进行可控操纵,不仅限于唇部运动。通过调节运动强度,可以生成更加自然和多样化的动画。
  • 基于预训练的视频扩散变换器模型:FantasyTalking 基于 Wan2.1 视频扩散变换器模型,基于时空建模能力,生成高保真、连贯的说话肖像视频。模型能有效捕捉音频信号与唇部运动、面部表情以及身体动作之间的关系,生成高质量的动态肖像。

FantasyTalking的项目地址

  • 项目官网:http://fantasy-amap.github.io/fantasy-talking/
  • Github仓库:http://github.com/Fantasy-AMAP/fantasy-talking
  • arXiv技术论文:http://arxiv.org/pdf/2504.04842

FantasyTalking的应用场景

  • 游戏开发:在游戏开发中,FantasyTalking 可用于生成游戏角色的对话动画和战斗动画。能根据语音内容生成精准的口型同步、丰富的面部表情和自然的全身动作,使游戏角色更加生动逼真,提升游戏的视觉效果和玩家的沉浸感。
  • *制作:在*制作中,可用于生成虚拟角色的表演动画和特效动画。通过 FantasyTalking 可以快速生成具有复杂表情和动作的虚拟角色,减少传统动画制作中的人力和时间成本,为*作品增添更多的创意和想象力。
  • 虚拟现实和增强现实:在虚拟现实(VR)和增强现实(AR)应用中,FantasyTalking 可以生成虚拟角色的交互动画和引导动画。
  • 虚拟主播:FantasyTalking 可以用于生成虚拟主播的动画视频。支持多种风格的虚拟形象,虚拟主播可以用于新闻播报、|直播|带货、在线教育等多种场景,具有较高的实用性和灵活性。
  • 智能教育:在智能教育领域,FantasyTalking 可以生成虚拟教师或虚拟助教的动画视频。


# 主播  # 主要功能  # 用户可以  # 较高  # 阿里巴巴  # 可以用  # 掩码  # 游戏开发  # 高质量  # git  # 变换器  # vr  # ar  # http  # github  # 对象  # talk 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: iPhone 17 Pro Max深度测评:AI驱动的未来手机已来?  打破平庸:激发你的内在动力,重塑卓越人生  AI内容审查:谷歌搜索结果是否受到人为干预?  小米汽车OTA冬季大版本升级:新增和优化共计9项功能  Replika AI:情感慰藉还是虚拟危机?深度剖析与用户反馈  Filmora 13 AI音乐生成器:创意视频配乐新纪元  怎么用AI帮你写一份客户感谢信?维系客户关系的利器  利用 DeepSeek 辅助进行编译器原理课程学习  AI赋能音频转录:SovereignAudio自托管解决方案  ClaudePC端怎么设快捷键_ClaudePC端快捷键设置【方法】  n8n教程:如何用AI自动生成个性化简历  想做自媒体?教你用AI批量生成视频脚本,实现内容自由  智谱AI创意设计怎么用_智谱AI创意设计使用方法详细指南【教程】  百度输入法蓝色图标怎么关 百度输入法ai图标消除  AI心理测试生成工具有哪些_一键生成趣味测评的AI工具推荐  探索弦乐器世界:从吉他到卡曼切,乐器全解析  Tradie Hub:领先的线索管理系统,助力业务增长  N8N工作流:自动化知识管理与智能问答解决方案  百度APP的ai助手怎么关闭 百度APP ai功能取消方法  唐库AI拆书工具怎样设置拆书深度_唐库AI拆书工具深度调节与内容详略控制【技巧】  AI工作流程详解:概念到生产的完整指南  批改网ai检测工具怎样生成改进建议_批改网ai检测工具改进建议查看与应用【攻略】  Pictory AI视频制作平台深度评测:功能、价格与使用指南  如何使用 DeepSeek API 构建低成本智能应用  深度解析Coldplay酷玩乐队《Viva la Vida》的音乐内涵  实测效率提升超35%!科大讯飞星火AIPC开启AI办公新纪元  讯飞星火怎样一键生成教案_讯飞星火教案生成与学科选择【教程】  2025年度AMD处理器终极评选:年度最佳CPU推荐  tofai最新官网入口 tofai网页版直接进入  如何用 ChatGPT 快速生成短视频分镜脚本  AI写作鱼怎么一键生成论文大纲_AI写作鱼大纲生成与逻辑梳理【技巧】  SnappaAI排版如何生成社交媒体图_SnappaAI排版社媒图尺寸与风格选择【技巧】  OpenArt:终极AI内容创作平台,图像、视频和角色一致性  图像分割技术详解:定义、类型、技术与应用  AI写作鱼如何一键生成情书_AI写作鱼情书生成与浪漫度调整【步骤】  使用文心一言进行高质量的唐诗宋词创意改编  简历没回改:利用AI润色让你的文字更专业  tofai官网网页版入口 tofai最新网页版登录链接  Depseek能否批量生成部门总结_Depseek多部门总结批量生成步骤【方法】  极氪回应明年车辆质保权益等问题:部分政策有调整  智能合约简明教程:概念、应用与未来趋势  百度ai助手怎么取消 百度ai助手取消显示设置  FundView贷款管理:贷款汇总生成器提升效率  2025年最佳免费AI艺术生成器:POD终极指南  打造迷人外表:AI技术揭秘面部美学比例与颜值提升  SteosVoice:电报语音克隆终极教程  AI赋能:五款颠覆性工具助你在线赚钱  千问怎么使用插件功能_千问插件调用与功能扩展【教程】  海外留学资金证明:无银行流水也能成功申请签证的秘诀  百度AI助手网页版入口 免安装直接打开入口 

 2025-04-12

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.