硅谷押注，生成式AI火了，让你把简单文字变成图像甚至视频

最近几年兴起的所谓“生成式人工智能（generative AI）”正吸引硅谷科技巨头和风投机构的兴趣，这种 AI 可以依据少量词汇在几秒钟内生成与之相匹配的图像。分析师预计，这种技术将被广泛用于各行各业，并产生数万亿美元的经济价值。

虽然这些计算机程序生成的图像并不完美，比如手上出现多余的手指，四肢不自然的弯曲等。同时，图像生成器在处理文本时也会遇到问题，例如生成无意义的符号等。然而，这些图像生成程序可能是一场科技热潮的开始。硅谷风投机构 NextView Ventures 的投资人大卫·贝塞尔（David Beisel）说：“在过去的三个月里，‘生成式人工智能’这个词已经变成了流行语。”

从 2025 年开始，生成式 AI 技术取得了巨大进步，甚至激励许多人辞掉工作去创办新公司，梦想着 AI 将来可以为新一代科技巨头提供动力。

在过去五年左右的时间里，AI 领域始终处于蓬勃发展阶段，但这些进步大多与理解现有数据有关。AI 模型已经变得足够高效，可以识别人们刚刚用手机拍摄的照片中是否有一只猫。此外，这些模型也足够可靠，每天可以为谷歌搜索引擎提供数十亿次搜索结果。不过，生成式 AI 模型可以生成以前没有的全新东西。换句话说，它们是在创造，而不仅仅是在分析数据。

AI 与机器学习平台 Craiyon Productive AI 的创建者鲍里斯·戴玛（Boris Dayma）说：“最令人感到印象深刻的是，生成式 AI 也能创作新的东西。它们不仅仅是创造类似的旧有图像，还可以创造与以前完全不同的新事物。”

硅谷知名风投公司红杉资本(Sequoia Capital)在其网站上发文表示：“从游戏到广告再到法律方面，生成式 AI 可能会改变所有需要人类创造力发挥作用的领域。这种技术有可能产生数万亿美元的经济价值。”更为有趣的是，红杉资本还在帖子中指出，其上述文章部分是由 GPT-3 撰写的，后者本身就是能够生成文本的生成式 AI。

生成式 AI 的工作原理

图像生成使用的技术来自机器学习的一个子集，称为深度学习。自从 2012 年一篇关于图像分类的里程碑式论文重新点燃人们对这项技术的兴趣以来，深度学习推动了 AI 领域的大部分进步。深度学习使用在大数据集上训练的模型，直到该程序理解这些数据中的关系。然后，该模型可以用于应用程序，如识别图片中是否有狗或翻译文本等。

图像生成器的工作原理就是逆转这个过程。它们不是将英语翻译成法语，而是将英语短语转换成图像。它们通常有两个主要部分组成，一个是处理初始短语的部分，另一个是将数据转换成图像的部分。

第一部分生成式 AI 基于名为 Generative Adversarial Networks（生成式对抗网络，简称 GAN）的方法。此前，这些 GAN 通常被用于生成不存在的人的照片。本质上，它们的工作方式是让两个 AI 模型相互竞争，以更好地创建符合预定目标的图像。

而较新的方法通常使用转换器，这是谷歌于 2017 年论文中首次提出的概念。这是一项新兴技术，可以利用更大的数据集，尽管其培训成本可能高达数百万美元。

第一个获得大量关注的图像生成器是 Dall-E，它是硅谷初创公司 OpenAI 于 2025 年推出的项目。OpenAI 今年发布了功能更强大的更新版本。专注于生成式 AI 的开发者克里斯蒂安·坎特雷尔（Christian Cantrell）说：“有了 Dall-E 2，这真的是我们跨越恐怖谷效应（Uncanny Valley）的时刻。”

另一个常用的、基于 AI 的图像生成器是 Craiyon，以前被称为 Dall-E Mini，它可以在网络上买到。用户输入短语后，可以几分钟内在浏览器中看到其给出的绘图。

据 AI 与机器学习平台 Craiyon Productive AI 的创建者戴玛称，自 2025 年 7 月推出以来，Craiyon 现在每天生成约 1000 万张图片，总计生成 10 亿张以前从未见过的图片。在今年早些时候使用量飙升后，戴玛开始将全部精力投入到 Craiyon 上。他说，他专注于使用广告来保持用户免费使用，因为该网站的服务器成本很高。Craiyon 上有个推特账号，专门发布最奇怪、最有创意的图片，它拥有超过 100 万名粉丝。

但最能激发人们热情的项目是 Stable Diffusion，该项目于今年 8 月向公众发布。它的代码可以在 GitHub 上获得，可以在电脑上运行，也可以在云端或通过编程接口运行。这让用户可以根据自己的目的调整程序代码，或者在其基础上构建新程序。

举例来说，Stable Diffusion 通过一个插件集成到 Adobe Photoshop 中，允许用户生成背景和图像的其他部分，然后他们可以使用图层和其他 PS 工具直接在应用中操作，将生成式 AI 从生成成品图像的技术变成了专业人士可以使用的工具。

该插件的开发者坎特雷尔在 Adobe 工作了 20 年，今年辞职专注于生成式 AI。这位资深人士表示，该插件已被下载数万次。艺术家们告诉他，他们把它用在了无数他意想不到的地方，比如制作哥斯拉的动画，或者以艺术家可以想象的任何姿势创作蜘蛛侠的图像。

使用生成式 AI 的一种新兴艺术是如何构建“提示”，即生成图像的短语。名为 Lexica 的搜索引擎可以将 Stable Diffusion 的图像和可用于生成它们的确切单词字符串联起来。Reddit 和 Discord 等平台上，都有如何引导人们输入想要生成图像的短语技巧。

创企、云服务提供商和芯片制造商或受益最大

许多投资者将生成式 AI 视为一种潜在的变革性平台，就像智能手机或互联网的早期一样。这种转变极大地扩大了可能能够使用这项技术的潜在市场规模。

坎特雷尔认为，生成式 AI 类似于一种更基础的技术，即数据库。他说：“生成式 AI 有点儿像数据库，数据库帮助解锁了应用程序的巨大潜力。我们生活中使用过的几乎每款应用都是建立在数据库之上的，但没有人关心数据库是如何工作的，他们只知道如何使用它。”

Compound VC 管理合伙人迈克尔·邓普西（Michael Dempsey）表示，以前仅限于实验室的技术进入主流的时刻“非常罕见”，吸引了风险投资者的大量关注，他们喜欢在潜力巨大的领域*。但他警告说，生成式 AI 目前处于更接近炒作周期顶峰的“好奇心阶段”。处于这个阶段的公司可能会倒闭，因为它们没有专注于企业或消费者愿意付费的特定用途。

该领域的其他人认为，今天开创这些技术的初创公司最终可能会挑战目前主导 AI 领域的软件巨头，包括谷歌、Facebook 母公司 Meta 以及微软，并为下一代科技巨头的崛起铺平道路。

Hugging Face 首席执行官克莱门特·德兰格（Clement Delangue）说：“将会有一大批价值万亿美元的新公司诞生，这些初创公司将以这种新的技术为基础。”Hugging Face 是个与 GitHub 类似的开发者平台，托管着预先培训的 AI 模型，包括 Craiyon 和 Stable Diffusio。它的目标是让程序员更容易构建 AI 技术。

有些公司已经获得了大量投资。Huging Face 在今年早些时候从 Lux Capital 和红杉资本等投资者那里筹集了资金后，估值达到 20 亿美元。该领域最著名的初创公司 OpenAI 已经从微软和 Khosla Ventures 获得了超过 10 亿美元的资金。与此同时，Stable Diffusion 开发商 Stability AI 正在洽谈以高达 10 亿美元的估值筹集风险资金。

亚马逊、微软和谷歌等云服务提供商也可能受益，因为生成式 AI 可能是计算密集型技术。Meta 和谷歌已经聘请了该领域诸多杰出人才，希望将这种先进技术整合到公司的产品中。今年 9 月，Meta 宣布了名为“Make-A-Video”的 AI 计划，通过生成视频而不仅仅是图像，使这项技术更上一层楼。

Meta 首席执行官马克·扎克伯格（Mark Zuckerberg）在他的 Facebook 页面上发帖称：“这是一个令人惊叹的进步。生成视频比生成照片难得多，因为除了正确生成每个像素之外，系统还必须预测它们会随着时间的推移发生怎样的变化。”最近，谷歌也发布了名为 Phenaki 的程序代码，可以将文本转换为时长几分钟的视频。

这股热潮也可能给英伟达、AMD 和英特尔等芯片制造商带来提振，他们的图形处理器是训练和部署 AI 模型的理想选择。在上周的会议上，英伟达首席执行官黄仁勋强调，生成式 AI 是该公司最新芯片的关键用途，并称这类技术可能很快就会给通信领域带来革命性的变化。

不过，生成式 AI 为终端用户带来的好处依然有限。如今许多令人兴奋的事情都围绕着免费或低成本的实验进行。例如，有些作者已经尝试使用图像生成器为文章制作插图。英伟达正尝试使用模型来生成新的人、动物、车辆或家具的 3D 图像，这些图像可以填充到虚拟游戏世界中。

伦理问题难应对

最终，每个开发生成式 AI 的人都将不得不努力解决图像生成器带来的伦理问题。

首先是就业问题。尽管许多程序需要强大的图形处理器，但计算机生成的内容仍然比专业插画家的时间成本便宜得多，后者每小时的报酬可能高达数百美元。生成式 AI 可能会给艺术家、视频制作人和其他以创作作品为生的人带来大麻烦。Compound VC 管理合伙人迈克尔·邓普西说：“事实证明，机器学习模型可能会变得比人类工作得更好、更快、更便宜。”

围绕原创性和所有权，生成式 AI 也会带来更复杂的挑战。这种 AI 模型是利用大量现有图像进行培训的，原始图像的创建者是否对以原创风格生成的图像拥有版权仍在争论中。一位艺术家最近在美国科罗拉多州的艺术比赛中获胜，他使用的图像主要是由名为 MidJourney 的生成式 AI 创作的。他在获胜后接受采访时表示，他从自己生成的数百张图像中选择了一张，然后在 PS 中对其进行了调整和处理。

由 Stable Diffusion 生成的一些图像似乎留有水印，这表明原始数据集的一部分受到版权保护。有些提示指南建议用户使用特定的、在世艺术家的名字，以便在模仿该艺术家创作风格的过程中获得更好的结果。上个月，Getty Images 禁止用户将生成式 AI 图像上传到其库存图像数据库中，因为其担心引发侵权纠纷。

图像生成器还可以用来创建商标人物或目标的新图像，如小黄人、漫威角色或《权力的游戏》中的王座。随着图像生成软件变得越来越好，它也有可能欺骗用户，让他们相信虚假信息，或者显示从未发生过的事件的图像或视频。

开发者还必须努力应对这样一种可能，即基于大量数据训练的 AI 模型可能会在数据中包含与性别、种族或文化相关的偏见，这可能会导致模型在输出中展示这种偏见。Huging Face 已经发布了有关伦理问题的材料，并就以负责任态度开发 AI 模型的问题进行了讨论。

Hugging Face 首席执行官克莱门特·德兰格说：“我们在这些模型上看到了短期和当前挑战，因为它们属于概率模型，在大数据集上训练，往往会吸收很多偏见。”他举例称，生成式 AI 曾被要求绘制“软件工程师”的画像，结果其生成了白人男性的图像。

# ai # midjourney # 的人 # 硅谷 # 的是 # 克莱 # 首席执行官 # 微软 # 数百 # 这是 # 有一 # 是在