硅谷押注,生成式AI火了,让你把简单文字变成图像甚至视频


最近几年兴起的所谓“生成式人工智能(generative AI)”正吸引硅谷科技巨头和风投机构的兴趣,这种 AI 可以依据少量词汇在几秒钟内生成与之相匹配的图像。分析师预计,这种技术将被广泛用于各行各业,并产生数万亿美元的经济价值。

虽然这些计算机程序生成的图像并不完美,比如手上出现多余的手指,四肢不自然的弯曲等。同时,图像生成器在处理文本时也会遇到问题,例如生成无意义的符号等。然而,这些图像生成程序可能是一场科技热潮的开始。硅谷风投机构 NextView Ventures 的投资人大卫·贝塞尔(David Beisel)说:“在过去的三个月里,‘生成式人工智能’这个词已经变成了流行语。”

从 2025 年开始,生成式 AI 技术取得了巨大进步,甚至激励许多人辞掉工作去创办新公司,梦想着 AI 将来可以为新一代科技巨头提供动力。

在过去五年左右的时间里,AI 领域始终处于蓬勃发展阶段,但这些进步大多与理解现有数据有关。AI 模型已经变得足够高效,可以识别人们刚刚用手机拍摄的照片中是否有一只猫。此外,这些模型也足够可靠,每天可以为谷歌搜索引擎提供数十亿次搜索结果。不过,生成式 AI 模型可以生成以前没有的全新东西。换句话说,它们是在创造,而不仅仅是在分析数据。 

AI 与机器学习平台 Craiyon Productive AI 的创建者鲍里斯·戴玛(Boris Dayma)说:“最令人感到印象深刻的是,生成式 AI 也能创作新的东西。它们不仅仅是创造类似的旧有图像,还可以创造与以前完全不同的新事物。”

硅谷知名风投公司红杉资本(Sequoia Capital)在其网站上发文表示:“从游戏到广告再到法律方面,生成式 AI 可能会改变所有需要人类创造力发挥作用的领域。这种技术有可能产生数万亿美元的经济价值。”更为有趣的是,红杉资本还在帖子中指出,其上述文章部分是由 GPT-3 撰写的,后者本身就是能够生成文本的生成式 AI。

生成式 AI 的工作原理

图像生成使用的技术来自机器学习的一个子集,称为深度学习。自从 2012 年一篇关于图像分类的里程碑式论文重新点燃人们对这项技术的兴趣以来,深度学习推动了 AI 领域的大部分进步。深度学习使用在大数据集上训练的模型,直到该程序理解这些数据中的关系。然后,该模型可以用于应用程序,如识别图片中是否有狗或翻译文本等。

图像生成器的工作原理就是逆转这个过程。它们不是将英语翻译成法语,而是将英语短语转换成图像。它们通常有两个主要部分组成,一个是处理初始短语的部分,另一个是将数据转换成图像的部分。

第一部分生成式 AI 基于名为 Generative Adversarial Networks(生成式对抗网络,简称 GAN)的方法。此前,这些 GAN 通常被用于生成不存在的人的照片。本质上,它们的工作方式是让两个 AI 模型相互竞争,以更好地创建符合预定目标的图像。

而较新的方法通常使用转换器,这是谷歌于 2017 年论文中首次提出的概念。这是一项新兴技术,可以利用更大的数据集,尽管其培训成本可能高达数百万美元。

第一个获得大量关注的图像生成器是 Dall-E,它是硅谷初创公司 OpenAI 于 2025 年推出的项目。OpenAI 今年发布了功能更强大的更新版本。专注于生成式 AI 的开发者克里斯蒂安·坎特雷尔(Christian Cantrell)说:“有了 Dall-E 2,这真的是我们跨越恐怖谷效应(Uncanny Valley)的时刻。”

另一个常用的、基于 AI 的图像生成器是 Craiyon,以前被称为 Dall-E Mini,它可以在网络上买到。用户输入短语后,可以几分钟内在浏览器中看到其给出的绘图。

据 AI 与机器学习平台 Craiyon Productive AI 的创建者戴玛称,自 2025 年 7 月推出以来,Craiyon 现在每天生成约 1000 万张图片,总计生成 10 亿张以前从未见过的图片。在今年早些时候使用量飙升后,戴玛开始将全部精力投入到 Craiyon 上。他说,他专注于使用广告来保持用户免费使用,因为该网站的服务器成本很高。Craiyon 上有个推特账号,专门发布最奇怪、最有创意的图片,它拥有超过 100 万名粉丝。

但最能激发人们热情的项目是 Stable Diffusion,该项目于今年 8 月向公众发布。它的代码可以在 GitHub 上获得,可以在电脑上运行,也可以在云端或通过编程接口运行。这让用户可以根据自己的目的调整程序代码,或者在其基础上构建新程序。

举例来说,Stable Diffusion 通过一个插件集成到 Adobe Photoshop 中,允许用户生成背景和图像的其他部分,然后他们可以使用图层和其他 PS 工具直接在应用中操作,将生成式 AI 从生成成品图像的技术变成了专业人士可以使用的工具。

该插件的开发者坎特雷尔在 Adobe 工作了 20 年,今年辞职专注于生成式 AI。这位资深人士表示,该插件已被下载数万次。艺术家们告诉他,他们把它用在了无数他意想不到的地方,比如制作哥斯拉的动画,或者以艺术家可以想象的任何姿势创作蜘蛛侠的图像。

使用生成式 AI 的一种新兴艺术是如何构建“提示”,即生成图像的短语。名为 Lexica 的搜索引擎可以将 Stable Diffusion 的图像和可用于生成它们的确切单词字符串联起来。Reddit 和 Discord 等平台上,都有如何引导人们输入想要生成图像的短语技巧。

创企、云服务提供商和芯片制造商或受益最大

许多投资者将生成式 AI 视为一种潜在的变革性平台,就像智能手机或互联网的早期一样。这种转变极大地扩大了可能能够使用这项技术的潜在市场规模。

坎特雷尔认为,生成式 AI 类似于一种更基础的技术,即数据库。他说:“生成式 AI 有点儿像数据库,数据库帮助解锁了应用程序的巨大潜力。我们生活中使用过的几乎每款应用都是建立在数据库之上的,但没有人关心数据库是如何工作的,他们只知道如何使用它。”

Compound VC 管理合伙人迈克尔·邓普西(Michael Dempsey)表示,以前仅限于实验室的技术进入主流的时刻“非常罕见”,吸引了风险投资者的大量关注,他们喜欢在潜力巨大的领域*。但他警告说,生成式 AI 目前处于更接近炒作周期顶峰的“好奇心阶段”。处于这个阶段的公司可能会倒闭,因为它们没有专注于企业或消费者愿意付费的特定用途。

该领域的其他人认为,今天开创这些技术的初创公司最终可能会挑战目前主导 AI 领域的软件巨头,包括谷歌、Facebook 母公司 Meta 以及微软,并为下一代科技巨头的崛起铺平道路。

Hugging Face 首席执行官克莱门特·德兰格(Clement Delangue)说:“将会有一大批价值万亿美元的新公司诞生,这些初创公司将以这种新的技术为基础。”Hugging Face 是个与 GitHub 类似的开发者平台,托管着预先培训的 AI 模型,包括 Craiyon 和 Stable Diffusio。它的目标是让程序员更容易构建 AI 技术。

有些公司已经获得了大量投资。Huging Face 在今年早些时候从 Lux Capital 和红杉资本等投资者那里筹集了资金后,估值达到 20 亿美元。该领域最著名的初创公司 OpenAI 已经从微软和 Khosla Ventures 获得了超过 10 亿美元的资金。与此同时,Stable Diffusion 开发商 Stability AI 正在洽谈以高达 10 亿美元的估值筹集风险资金。

亚马逊、微软和谷歌等云服务提供商也可能受益,因为生成式 AI 可能是计算密集型技术。Meta 和谷歌已经聘请了该领域诸多杰出人才,希望将这种先进技术整合到公司的产品中。今年 9 月,Meta 宣布了名为“Make-A-Video”的 AI 计划,通过生成视频而不仅仅是图像,使这项技术更上一层楼。

Meta 首席执行官马克·扎克伯格(Mark Zuckerberg)在他的 Facebook 页面上发帖称:“这是一个令人惊叹的进步。生成视频比生成照片难得多,因为除了正确生成每个像素之外,系统还必须预测它们会随着时间的推移发生怎样的变化。”最近,谷歌也发布了名为 Phenaki 的程序代码,可以将文本转换为时长几分钟的视频。

这股热潮也可能给英伟达、AMD 和英特尔等芯片制造商带来提振,他们的图形处理器是训练和部署 AI 模型的理想选择。在上周的会议上,英伟达首席执行官黄仁勋强调,生成式 AI 是该公司最新芯片的关键用途,并称这类技术可能很快就会给通信领域带来革命性的变化。

不过,生成式 AI 为终端用户带来的好处依然有限。如今许多令人兴奋的事情都围绕着免费或低成本的实验进行。例如,有些作者已经尝试使用图像生成器为文章制作插图。英伟达正尝试使用模型来生成新的人、动物、车辆或家具的 3D 图像,这些图像可以填充到虚拟游戏世界中。

伦理问题难应对

最终,每个开发生成式 AI 的人都将不得不努力解决图像生成器带来的伦理问题。

首先是就业问题。尽管许多程序需要强大的图形处理器,但计算机生成的内容仍然比专业插画家的时间成本便宜得多,后者每小时的报酬可能高达数百美元。生成式 AI 可能会给艺术家、视频制作人和其他以创作作品为生的人带来大麻烦。Compound VC 管理合伙人迈克尔·邓普西说:“事实证明,机器学习模型可能会变得比人类工作得更好、更快、更便宜。”

围绕原创性和所有权,生成式 AI 也会带来更复杂的挑战。这种 AI 模型是利用大量现有图像进行培训的,原始图像的创建者是否对以原创风格生成的图像拥有版权仍在争论中。一位艺术家最近在美国科罗拉多州的艺术比赛中获胜,他使用的图像主要是由名为 MidJourney 的生成式 AI 创作的。他在获胜后接受采访时表示,他从自己生成的数百张图像中选择了一张,然后在 PS 中对其进行了调整和处理。

由 Stable Diffusion 生成的一些图像似乎留有水印,这表明原始数据集的一部分受到版权保护。有些提示指南建议用户使用特定的、在世艺术家的名字,以便在模仿该艺术家创作风格的过程中获得更好的结果。上个月,Getty Images 禁止用户将生成式 AI 图像上传到其库存图像数据库中,因为其担心引发侵权纠纷。

图像生成器还可以用来创建商标人物或目标的新图像,如小黄人、漫威角色或《权力的游戏》中的王座。随着图像生成软件变得越来越好,它也有可能欺骗用户,让他们相信虚假信息,或者显示从未发生过的事件的图像或视频。

开发者还必须努力应对这样一种可能,即基于大量数据训练的 AI 模型可能会在数据中包含与性别、种族或文化相关的偏见,这可能会导致模型在输出中展示这种偏见。Huging Face 已经发布了有关伦理问题的材料,并就以负责任态度开发 AI 模型的问题进行了讨论。

Hugging Face 首席执行官克莱门特·德兰格说:“我们在这些模型上看到了短期和当前挑战,因为它们属于概率模型,在大数据集上训练,往往会吸收很多偏见。”他举例称,生成式 AI 曾被要求绘制“软件工程师”的画像,结果其生成了白人男性的图像。


# ai  # midjourney  # 的人  # 硅谷  # 的是  # 克莱  # 首席执行官  # 微软  # 数百  # 这是  # 有一  # 是在 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: 百度AI对话助手入口 智能聊天机器人入口  即梦ai怎样生成插画作品_即梦ai插画生成入口与风格选择【教程】  都灵裹尸布之谜:AI揭示耶稣基督的真实面貌?  GitHub MCP Server:AI赋能代码管理的未来  批改网AI检测工具怎样批量检测作文_批改网AI检测工具批量上传与处理流程【攻略】  eBookWriter AI:无需写作也能创作专业电子书  百度输入法蓝色图标怎么关 百度输入法ai图标消除  稿定设计AI抠图怎样处理复杂边缘_稿定设计AI复杂边缘细化技巧【技巧】  微信AI数字人能否识别语音消息_微信AI数字人语音识别与回复设置【教程】  ChatGPT怎么用一键生成活动策划案_ChatGPT策划案生成教程【攻略】  探索弦乐器世界:从吉他到卡曼切,乐器全解析  斑马AI如何设置奖励机制_斑马AI积分奖励与勋章获取【步骤】  tofai官网入口链接 tofai网页版在线登录  ChatGPT 4 辅助进行室内设计灵感采集  提升阅读理解:策略、技巧和有效方法全面指南  SnappaAI排版如何生成社交媒体图_SnappaAI排版社媒图尺寸与风格选择【技巧】  2025最佳AI效率工具:释放生产力,革新业务运营  2025年冷邮件营销:技巧、工具和成功案例分享  GTA Online: 2025最新无限隐形套装防消失技巧  tofai入口官方网站 tofai网页版入口地址  Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】  数据迁移测试指南:策略、技术与挑战全解析  DeepSeek写合同怎么用_DeepSeek写合同使用方法详细指南【教程】  佐糖AI抠图能否识别商品白底_佐糖AI电商白底图自动处理流程【教程】  5分钟教你用AI生成婚礼流程策划案,备婚新人必备  解读诗歌中的女性视角:Shelley Puhak 的作品解析  通义千问怎样优化提示词效果_通义千问提示词优化技巧【攻略】  AI如何革新心理健康诊断:从症状检查到大脑分析  解密AI时尚摄影:打造完美形象的终极指南  如何用AI帮你创建自定义表情符号(Emoji)?聊天斗图更有趣  怎么用AI制作数字人短视频?3步教你创建虚拟主播  Gemini 辅助进行博物馆数字化藏品分类建议  Android图像翻译器应用:技术、应用与未来展望  如何利用 ChatGPT 进行深度行业竞品分析  Descript vs. Wisecut:AI视频编辑工具深度测评与最佳选择  2025年最佳AI时间管理软件:Motion、Reclaim AI与Clockwise终极评测  豆包 AI 辅助进行家庭装修风格对比分析  揭秘:发电机咒语的音频魔力与音乐的力量  AI内容审查:谷歌搜索结果是否受到人为干预?  探索贝奥武夫:英雄史诗的起源、故事与文化意义  Kling 2.0终极指南:AI视频创作秘籍,告别低质量  AI威胁论:超人工智能ASI时代来临,人类如何应对?  Midjourney怎样用参数调分辨率_Midjourney分辨率调整技巧【教程】  百度AI搜索怎么用AI总结网页_百度AI搜索网页总结功能与调用【技巧】  AI心理测试生成工具有哪些_一键生成趣味测评的AI工具推荐  AI聊天机器人:朋友还是谄媚者?深度解析与实用建议  如何用ChatGPT准备面试 模拟面试问答与职场话术练习教程  C3.ai深度解析:投资者必知的关键洞察  唐库AI拆书工具怎样设置拆书深度_唐库AI拆书工具深度调节与内容详略控制【技巧】  Z270 Mini-ITX主板全面评测:为Skylake和Kaby Lake打造迷你主机 

 2023-04-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.