曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源


InstantID 原班团队推出了风格迁移的新方法 InstantStyle。

风格化图像生成通常被称为风格迁移,其目标是生成与参考图像风格一致且与原始图像内容一致的图像。这种技术基于diffusion的方法(比如lora)进行批量的同风格数据训练,无法迁移到新的风格中。或者基于inversion的操作(如stylealign),通过将风格图像还原为latent noise,将其前向传播得到的k、v用于替换生成中的风格图像。这种方法往往由于inversion的操作,生成风格退化。

最近,InstantID 原班团队推出了风格迁移的新方法 InstantStyle。与人脸 ID 不同,它是一个通用的图像风格注入框架,采用两种简单但非常有效的技术,可以实现风格和内容与参考图像的有效分离。这种方法提供了一种简单但非常有效的技术,可以实现风格和内容与参考图像的有效分离,从而实现风格和内容的有效融合。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

  • 论文:InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation

  • 论文地址:https://huggingface.co/papers/2404.02733

  • 项目主页:https://instantstyle.github.io/

  • 代码链接:https://github.com/InstantStyle/InstantStyle

  • Demo 地址:https://huggingface.co/spaces/InstantX/InstantStyle

作为一种自动化介绍动机,(1)首先风格是欠定的,没有清晰的标准来定义,它囊括众多元素,比如色彩、气围、材质、布局等等,即使是人工评价,也很难有统一的结论;(2)此前基于 inversion 的方法会产生明显的风格退化,这对部分风格是无法接受的,比如纹理;(3)图像风格的注入,最关键的问题是如何平衡风格注入的强度以及参考图像的内容泄露。

对此,作者团队进行了一系列实验分析,他们发现,IP-Adapter 的问题被其它许多方法都明显夸大了,作者仅通过手动调整图像特征注入的权重,就解决了大部分论文中宣称的内容泄露问题。尽管如此,在一些情况下,IP-Adapter 仍然较难找到一个合适的阈值来平衡。由于目前 Adapter-based 的方法普遍使用 CLIP 提取图像特征,作者通过图像检索的例子确认,在 CLIP 特征空间中,图像和文本的特征是可以相加减的,答案显而易见,为什么不在注入网络之前,显式地减去可能会泄露的内容信息,从而对图像特征进行内容和风格解耦呢?

最后,受到 B-LoRA 方法的启发,作者细致分析了 IP-Adapter 在每一层注入的效果,惊奇地发现存在两个独立的层分别响应风格和空间布局的信息。为此,作者引出了提出的方法。

方法介绍

基于以上的观察和实验,作者提出了 InstantStyle 方法,如图所示,该方法核心包含两个模块:

(1)特征相减:利用 CLIP 空闲的特性,显式地进行特征相减,去除图像特征中内容的信息,减少参考图片内容对生成图片的影响。其中相比于风格的欠定,内容信息往往容易通过文本简单描述,所以可以利用 CLIP 的文本编码器提取内容特征,用于解耦。

(2)仅风格层注入:仅在特定风格层完成特征注入,隐式地实现风格和内容的解耦。作者在 UNet 的 mid block 附近,发现了分别控制风格和空间布局的两个特定层,并发现在某些风格中,空间布局可能也属于风格的一种。

整体而言,InstantStyle 的思路相当简单易懂,仅仅通过几行代码,就缓解了风格迁移中最困扰的内容泄露问题。

实验结果

作者在文中展示了两种策略的生成结果,这两种策略不局限于特定模型,可以分开独立使用,都实现了优异的效果。

特征相减的结果:

仅风格层注入:

和目前领先方法的对比:

基于原图的风格化:

社区玩法

InstantStyle 已经提供了丰富的代码实现,开发者可以直接通过 GitHub 找到,包括文生图、图生图以及 Inpainting。近日还被视频生成项目 AnyV2V 作为推荐的风格化工具。对于社区用户,InstantStyle 还原生就支持了 ComfyUI(该结点作者也是 InstantStyle 的共同作者),用户可以通过更新 IP-Adapter 结点即可快速尝试。

作为 InstantID 作者,又怎么少得了和 InstantID 的联名呢,相比于 InstantID 中仅通过文本来控制生成风格,InstantStyle 无疑可以让风格更加多样。作者团队会在 GitHub 星标到达 1000 后,官方支持人脸的风格化功能。

作者也官方支持了 Huggingface Demo,可以在线试玩。


# git  # 并发  # github  # https  # 自动化  # 两种  # 可以实现  # 相减  # 原班  # 推出了  # 这种方法  # 很难  # 会在  # 将其  # 提出了 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Tamilnad Mercantile Bank TMB:如何在线下载账户报表  Claude官网在线对话地址 Claude官方网站直接使用  Midjourney怎样加参数调细节_Midjourney参数调整技巧【指南】  Brevio AI:利用AI代理提升电商营销效果  颠覆工作方式:2025年必备的9款强大AI工具  恐怖游戏惊魂:虚拟主播带你逃离病娇女孩的魔爪  阿里通义app怎么用_阿里通义app使用方法详细指南【教程】  AI落地页优化:3个技巧,转化率飙升!  怎么用AI帮你设计一套个性化的手机App图标?  AI Excel公式生成工具有哪些_一键生成函数公式的AI工具推荐  RPGGO AI:颠覆传统!2D游戏创作新纪元  通义千问怎么找新功能入口_通义千问新功能查找【攻略】  可灵ai怎么生成招聘JD文案_可灵aiJD生成要素与岗位描述优化【技巧】  AI猫咪视频创作指南:轻松打造百万级YouTube Shorts  简历没回改:利用AI润色让你的文字更专业  tofai最新官网入口 tofai网页版直接进入  ChatGPT新手指南:大学生如何高效利用AI工具?  AI电子书写作终极指南:ChatGPT和Canva实战教程  Google NotebookLM:科研文献综述的免费AI工具  Depseek如何让提示词包含上下文_Depseek上下文补充提示词写法【步骤】  Claude怎样写引导型提示词_Claude引导提示词写法【方法】  豆包AI怎么做数据分析 豆包AI数据处理入门教程  扣子AI如何绑定自有域名_扣子AI域名绑定与SSL配置【步骤】  轻松入门:如何创建自己的图像识别模型  YouTube SEO优化:AI驱动的标题生成工具详解  AGI未来展望:DeepMind CEO的深度解读与行业洞察  3步教你用AI总结会议录音,再也不怕错过重点  使用 DeepSeek 进行网络协议栈分析与优化建议  智行ai抢票怎么设置抢票截止时间_智行ai抢票截止时间设置与确认【步骤】  AI同伴的未来:超越工具,迈向情感连接与个人成长  FeelinAI聊天网页版 Feelin官方网站地址  iPhone 17 Pro Max深度测评:AI驱动的未来手机已来?  AI工作流程详解:概念到生产的完整指南  通义千问怎么设置功能偏好_通义千问偏好设置【教程】  豆包AI怎么关闭消息推送_通知与提醒管理设置教程  一键生成PPT工具怎么用_一键生成PPT工具使用方法详细指南【教程】  AI QA 工程:通往人工智能质量保障工程师的职业道路  EdrawMax AI:项目管理和创意专业人士的终极图表工具  教你用AI将长视频内容切片,并自动生成短视频文案  百度AI助手在线体验入口 最新版免费试用入口  淋巴按摩终极指南:在家打造紧致透亮肌肤  文心一言 4.0 在公文写作规范中的实战技巧  在线图像分割:可信模糊聚类算法详解与应用  Google Gemini 辅助进行 Android Studio 代码开发  AI员工工具详解:添加与移除指南,提升效率  电脑百度ai助手怎么关闭 电脑版百度ai助手移除教程  Amazon Rekognition: 图像与视频分析的强大AI工具  豆包AI怎么生成员工成长总结_豆包AI成长指标提取与案例编写【方法】  如何用文心一言写简历 快速生成高含金量求职简历方法  CallidusAI:提升合同起草效率的智能Word插件指南 

 2024-04-15

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.