关于文本到图像生成式AI ：狂野新世界的4 个预测 - 零售

最近几个月，一种强大的新形式的人工智能突然出现并吸引了公众的想象力：文本到图像的生成式人工智能。

文本到图像的AI模型只需要根据简单的文字输入就能生成原始图像。用户可以输入他们喜欢的任何文字提示——比如，“一只可爱的柯基犬住在一个用寿司做的房子里”——然后，人工智能就像施了魔法一样，会产生相应的图像。（此示例见上文）

这些模型产生的图像在世界上和任何人的想象中都从未存在过。它们不是对互联网上现有图像的简单操作；它们是新颖的创作，其独创性和复杂性令人叹为观止。

最著名的文本到图像模型是OpenAI的DALL-E。OpenAI于2021年1月推出了最初的DALL-E模型。其继任者DALL-E 2于2022年4月发布。DALL-E 2引起了公众的广泛关注，将文本转图像技术推向了主流。

在围绕DALL-E 2的兴奋之后，没过多久竞争对手就出现了。几周之内，一个名为“DALL-E Mini”的轻量级开源版本风靡一时。与OpenAI或DALL-E无关，DALL-E Mini在OpenAI的压力下更名为Craiyon。

5月，谷歌发布了自己的文本到图像模型，名为Imagen。（本文所有均来自Imagen。）

此后不久，一家名为Midjourney的初创公司出现了一个强大的文本到图像模型，该模型已可供公众使用。Midjourney的用户增长惊人：仅在两个月前推出，截至撰写本文时，其Discord组中的用户已超过180万。Midjourney最近登上了《经济学人》的封面和约翰·奥利弗的深夜电视节目。

该类别中的另一个关键进入者是Stability.ai，它是Stable Diffusion模型背后的初创公司。与任何其他竞争对手不同，Stability.ai公开发布了其AI模型的所有细节，在线发布模型的权重供任何人访问和使用。这意味着，与DALL-E或Midjourney不同，Stable Diffusion可用于生成的内容没有过滤器或限制，包括暴力、色情、种族主义或其他有害内容。

Stability.ai的完全无限制发布策略一直存在争议。另一方面，该公司毫无歉意的开放精神正在帮助它围绕其平台建立一个强大的开发人员和用户社区，这可能被证明是一种宝贵的竞争优势。

关于作为当今生成AI基础的突破性技术有很多话要说，但特别值得强调的一项关键创新是：扩散模型。最初受到热力学概念的启发，扩散模型在过去一年中大受欢迎，迅速取代了生成人工网络 (GAN)，成为基于AI的图像生成的首选方法。DALL-E 2、Imagen、Midjourney和Stable Diffusion都使用扩散模型。

简而言之，扩散模型通过使用增加的噪声破坏训练数据来学习，然后找出如何逆转这种噪声过程以恢复原始图像。一旦经过训练，扩散模型就可以应用这些去噪方法从随机输入中合成新颖的“干净”数据。

退一步说，我们要如何看待这个领域最近的所有活动和声音？事情将何去何从？以下是四个预测，旨在消除噪音并为您提供有关生成AI狂野新世界的原始观点。

一：在接下来的12个月内，大量风险投资将涌入这一赛道。

风险投资界已经开始流传一种说法，即文本到图像的人工智能是“下一件大事”。毫无疑问，这项技术是非凡的。时间会证明它是否以及如何成为大规模、经久不衰的企业的基础。

无论如何，随着投资者寻求乘风破浪，预计短期内该领域会出现一连串的风险投资。

上周开场，有报道称Stability.ai正在从Lightspeed和Coatue等蓝筹投资者那里以高达10亿美元的估值筹集高达1亿美元的资金。

这不会是该类别中的最后一笔巨额交易。例如，Midjourney目前可能会吸引大量入境投资者的兴趣。到目前为止，Midjourney一直由创始人David Holz（前Leap Motion首席技术官/联合创始人）自筹资金，但如果该公司很快决定用风险投资资金填补其资金池，以便在这个日益增长的领域竞争和扩大规模，请不要感到惊讶快速发展的生态系统。

许多新的文本到图像的初创公司将在未来几个月内出现，它们具有不同的愿景和方法来将这种强大的新技术商业化。即使在当今不利的市场条件下，风险资本家也会热切地为其中许多人提供资金。

二：该技术最大的商业机会和最佳商业模式尚未被发现。

迄今为止，推动文本到图像AI采用的主要用例是个人用户的纯粹新颖性和好奇心。难怪任何玩过这些模型的人都可以证明，这是一种令人振奋和引人入胜的体验，尤其是刚开始时。

但从长远来看，个人爱好者的随意使用本身并不太可能维持大规模的新业务。

哪些用例将释放巨大的企业价值创造，并为这项技术带来最引人注目的商机？简而言之，文本到图像AI的“杀手级应用”是什么？

立即想到的一个应用程序是广告。广告本质上是视觉的，因此非常适合这些生成的AI模型。毕竟，广告为Alphabet和Facebook等科技巨头的商业模式提供了动力，这些都是历史上最成功的企业之一。

一些品牌，例如卡夫亨氏，已经开始尝试使用DALL-E 2等人工智能模型来制作新的广告内容。毫无疑问，我们会看到更多这样的情况。但是，坦率地说，让我们都希望能为这项令人难以置信的新技术找到更有意义的用例，而不仅仅是更多的广告。

退后一步，考虑一下这些AI模型可以快速、经济且富有想象力地生成和迭代任何视觉内容，而无需任何特殊的专业知识或培训。当我们如此广泛地界定这项技术的范围时，就会更加明显地发现，各种变革性的、颠覆性的商业机会应该会出现。

也许这项技术最直观的用例是创造艺术。全球美术市场规模为650亿美元。即使撇开这个高端市场不谈，文本到图像AI可以应用于艺术的更多日常用途：书籍封面、杂志封面、明信片、海报、音乐专辑设计、壁纸、数字媒体等等。

以库存为例。库存图像可能看起来是一个相对利基的市场，但它本身代表了一个价值数十亿美元的机会，包括Getty Images和Shutterstock在内的公开交易的竞争对手。这些企业面临着生成人工智能的生存破坏。

从长远来看，任何实体产品（汽车、家具、衣服）的设计（以及生产）都可以转变，因为生成式AI模型被用于构思新颖的功能和设计，从而吸引消费者。

相关地，文本到图像的人工智能可能会通过“提出”独特的、意想不到的新结构和布局来影响建筑和建筑设计，进而激发人类建筑师的灵感。今天已经在进行这些方面的初步工作。

除了杀手级应用的问题之外，还有一个相关但独特的话题，即这一类别的竞争格局将如何演变，以及哪些产品和上市策略将被证明是最有效的。

OpenAI和Midjourney等先行者已将自己定位为与行业无关的核心AI技术的横向供应商。他们构建了通用的文本到图像模型，通过API将它们提供给客户（按使用付费），并将其留给用户来发现他们自己的用例。

一个或多个横向参与者是否会通过提供一个基础的文本到图像平台来实现大规模运作，在该平台上构建一个由各种应用程序组成的整个生态系统？如果是这样，它会是赢家通吃吗？随着技术最终商品化，这样的企业的长期护城河是什么？

或者随着行业的成熟和不同的用例成为焦点，为特定应用程序构建专门构建的专业解决方案是否会有更多价值？

例如，可以想象一种专为汽车行业设计的用于新车型设计的文本到图像的解决方案。除了AI模型本身针对此特定用例的训练数据进行微调外，此类解决方案可能包括完整的SaaS产品套件和完善的用户界面，旨在无缝集成到汽车设计师的整体工作流程中。

另一个关键的战略问题涉及核心AI模型本身。这些模型能否成为公司可持续的防御来源，还是会迅速商品化？回想一下，Stable Diffusion是当今领先的文本到图像模型之一，它已经完全开源，其所有权重都可以在线免费获得。与利用开源社区或其他公司已经构建的模型相比，新创业公司在内部训练自己专有的文本到图像模型的频率和条件是多少？

我们还不能确定地知道这些问题中的任何一个的答案。我们唯一可以确定的是，在未来的几个月和几年里，这个领域将以令人惊讶、意想不到的方式发展。新技术的部分魔力在于它开启了以前无法想象的可能性。当拨号上网第一次出现时，谁预测到了YouTube？当第一部智能手机问世时，谁看到了优步的到来？

企业家最终将通过自己设想和建设未来来回答这些问题。

三：文本到图像的人工智能将引发版权、法律和道德问题的蜂窝。不要指望这些会减慢技术速度。

任何能够深刻改变现状的新技术都会与现有的社会规范和政策框架产生摩擦和挑战。生成式人工智能也不例外。

这项技术引发了许多宏观问题：人工智能驱动的工作岗位流失这一永远存在的话题，这些模型加剧的深度伪造的迫在眉睫的威胁，什么是真正的艺术以及人工智能是否可以创造的哲学问题。这些问题没有简单的答案，关于这些问题的公众讨论将持续多年。

这里有一个近期值得简要讨论的问题：谁拥有并有权将这些模型产生的图像商业化的问题。

提出文本提示并将其输入AI模型的人能否获取生成的图像并用它做任何他或她喜欢的事情（包括在商业环境中）？或者构建AI模型的组织是否保留对该模型产生的所有媒体的权利？如果AI模型是开源的呢？

让事情更复杂的是，谷歌和OpenAI等公司首先创建这些模型的方式是通过对这些公司不拥有的大量公开可用图像进行训练，包括无数其他艺术家、设计师和组织。

这些问题不仅仅是理论上的；它们将产生非常真实和直接的商业后果。是否以及如何解决这些问题将对使用该技术的公司的战略和机会产生重大影响。企业家和投资者需要注意。

“如果按照我认为 [OpenAI] 设想的方式采用DALL-E，那么使用该工具将产生大量收入，”贝克麦坚时律师事务所专注于人工智能的律师Bradford Newman说. “而且当你在市场上有很多参与者和问题时，你就有很高的诉讼机会。”

OpenAI目前声明的政策是，DALL-E的个人用户拥有将他们使用该模型创建的图像商业化的全部权利——包括重印、出售或商品化图像的权利——但OpenAI保留对原始图像的最终所有权。Midjourney的服务条款也有类似的说法。

但是，当涉及这些图像的高风险争议不可避免地被提起诉讼时，法院会这样看吗？这是未知的领域；没有直接的法律先例。

Epstein Becker&Green律师事务所的高级合伙人Jim Flynn提供了一个具体的例子来说明其中的动态：“如果我代表其中一家广告公司或广告公司的客户，我不会建议他们使用这个软件来创建一个活动，因为我确实认为人工智能提供商会[目前]对知识产权有一些要求。我会寻求谈判一些更明确的东西。”

最终，这些问题不应被视为技术的阻碍，而应被视为在这个新兴行业全速前进时将发挥作用的未解决问题。别搞错了：法律上的模糊性不会阻止企业家和技术人员推动这一领域的先进技术，也不会阻止建立将这项技术带给大众的企业。

OpenAI的一位发言人总结得很好：“版权法过去已经适应了新技术，并且需要对人工智能生成的内容做同样的事情。”

四：这项技术将很快变得更加令人兴奋。

与今天的文本到图像模型一样令人印象深刻，我们仍处于生成人工智能扩散的最早阶段。文本到图像只是一个开始。

最自然的下一步将是文本到视频的AI模型：生成模型可以接受文本描述，不仅可以生成静态图像，还可以生成指定长度的视频。

不用说，文本到视频是比文本到图像更复杂的技术挑战。一方面，它需要更大的计算资源；另一方面，注释良好的视频训练数据是稀缺的。

但这里的机会是巨大的。从TikTok到Netflix，视频已成为我们数字生活的主要媒介。据思科称，当今互联网上超过80% 的数据是视频。从娱乐到社交媒体再到营销等等，轻松、廉价地按需生成新视频内容的能力将带来变革。

该主题最有前途的学术研究是CogVideo，这是2022年5月发布的大规模文本转视频模型。就在两天前，视频AI初创公司Runway宣布即将在其平台上发布文本转视频工具，它说“即将推出”。Runway似乎正在与Stability.ai合作开展这项工作。

未来创新的另一个途径是生成3D数字内容的AI模型（与DALL-E等模型的2D输出相反）。这项技术将对游戏、动画电影制作和虚拟世界等领域产生巨大影响。

最后一种诱人的可能性：想象将生成的AI模型与3D打印机配对，以实现文本到现实世界的对象生成。正如一位推特用户生动描述的那样：“字面上是用咒语召唤物体。”

可以肯定的是，这在今天仍然遥不可及。但是，使这样的事情成为现实的核心技术构建块基本上已经到位。

未来将是令人兴奋的，它会比你想象的更早到来。

注：文/格林，文章来源：新芒X(公众号ID：xinmangx)，本文为作者独立观点，不代表亿邦动力立场。

文章来源：新芒X