“你们是从什么时候开始注意到人类的?”
“当第一个原始人开始仰望星空的时候。”
AI的类人猿,早已开始仰望人类。
01
来自机器的审视
在过去短短的两年间,算法从业者王超岳有过两次被AI震撼住的时刻。
一次是去年3月OpenAI祭出人工智能绘画产品DALL·E时。只需要在计算机上输入一句话,DALL·E就能够理解这句话、然后自动生成一幅意思相应的图像,且该图像是全网首发、独一无二。
所有跨越“族群”的交流都是一次文明的突变,来自未明机器系统的回应也让人类感到犹遇UFO的震惊与好奇。在人与人的距离越来越远的现代社会,机器却好像能够读懂一个人的内心。
“你能明显感觉到它相比GAN(2014年出现的一个AI生成网络)的进步。DALL·E的技术是革命性的。”王超岳告诉雷峰网。
第二次是今年4月谷歌发布5400亿参数大模型PaLM的时候。随着参数的变大,PaLM的文本理解能力与逻辑推理能力大幅提升,甚至可以用文本解释笑话,告诉读者为什么这个笑话好笑。
在这之前,人们嘲讽AI最常用的一句话就是:这个AI模型的推理能力很弱,像3岁小朋友。但大模型发展至今,已经能做算术、能做逻辑推理,心智已经接近甚至在某些角度超过人类。“比方说,”王超岳举例:“有很多笑话我一时不能理解,但它能给我解释,说明在一些语言理解任务上、它比我还懂。”
王超岳是生成式AI的资深研究者,从2014年GAN发布后就开始关注AIGC相关研究,当时GAN就是深度生成网络的研究热点,但热度也远远不及AIGC这两年的重大突破。上述提到的两项技术,也成为点燃今年下半年AI圈狂欢的“导火索”:
DALL·E背后的关键技术CLIP让文字与两个模态找到能够对话的交界点,成为DALL·E、DALL·E 2.0、Stable Diffusion等突破性AI成果的基石;而像PaLM这样的语言大模型,虽然烧钱,但其对人类语言的理解能力突飞猛进,是AI能读懂人的前提。
“这两年的AI技术突破真的非常快。”心辰科技(盗梦师团队)创始人蓝振忠也说道。他读论文经常读到很兴奋、很激动:“CLIP出来一段时间后,MAE(何恺明团队提出的一种AI范式,可以将在语言任务上表现优秀的能力迁移到视觉任务的处理上)又跟着出来,然后又有Stable Diffusion……”
今年8月Stable Diffusion推出以来,蓝振忠与团队很快就跟上、只用了不到一个月的时间就上线AI作画产品“盗梦师”,并迅速在国内火起来,出图速度短至1秒,而且绘画质量非常高,日留存率接近50%(高于90% 的小程序),不到两个月就接到了To B的大订单。
在盗梦师上线的第二天(9月1日),国内第一本《AIGC白皮书》在上海世界人工智能大会(WAIC)发布。王超岳参与了这本白皮书的撰写,并主导了AIGC技术体系的梳理和展望。
AIGC白皮书的发布引来大批参会同行的关注。不仅是人工智能领域的研究者,还有元宇宙领域的从业者:
“当时红杉资本那篇关于生成式AI的文章还没有出来,大家都还不知道AIGC是什么。这说明数字内容生成的重要性是行业共识。”
再紧接着,一切都很快:技术的突破带来应用的繁荣,Midjourney在海外火起,文生图的热潮又让人们看到更多原先冷门的AIGC分支,如文本生成、视频生成、音乐生成,业内人士才惊觉,原来海外像Jasper.ai这样的公司已经在商业化落地上有成功的验证。继上一代以识别与检测为主的感知智能之后,用于生成与编辑的“创造智能”成为资本的新宠。
更意外的是,这一波AIGC的热潮还引起了广大圈外人士的关注,如自媒体KOL、插画师群体与图文创作者。人们有恐慌,檄文不断;也有欢喜,希望拥抱前沿的技术。
但无论人们接受与否,一个不可逆转的趋势已经在发生。
02
AIGC的大航海时代已开启
1519年,一支探险船队从西班牙驶出,由西而去,人类文明的大航海时代开启。
后来,全球化历史学家记载文明,总要提到一个叫麦哲伦的探险家,以及他最初航海的好奇心:地球是方的,还是圆的?——麦哲伦是地圆说的倡导者;如果地球是方的,就证明航海无法成功;而如果地球是圆的,那么他最终会回到原点。
1950年,另一位叫艾伦·图灵的科学探险家也有相似的好奇:机器能否根据人的行为作出有意识的反应?——他提出了一个著名的检测方法,叫“图灵测试”,开启了人工智能的研究时代。
如今,AI领域的研究者,在AIGC的技术探索中似乎也获得了相似的探索欲望与热情。他们想知道:机器是否能读懂人的思想与逻辑,从0到1进行创造?
答案是:经过近十年的技术发展,他们认为可以,并且相信当前的AIGC探索已经到了工程化的阶段。
犹如麦哲伦航海,目的已经明确,航海的地图(理论与框架)也已初具雏形,接下来是要验证技术路线是否可以到达目的地。
以文生图为例。虽然AI根据文本描述画画的能力还不够完美,例如基于不同的文本提示(prompt)会输出质量不一的图像,对长文本的理解能力不足、会漏读关键词汇导致生成的图像不完成等等,但这些都是一个个具体的研究问题,被解决只是时间问题。
为什么说AIGC的地图已勾勒完成?这主要归功于三方面:大模型、多模态与可控制。
2020年,OpenAI推出1750亿参数的预训练语言大模型GPT-3,在国内外掀起千亿参数大模型的研究浪潮。那时开始,AI的语言表达和理解能力开始突飞猛进。也是从那时起,AI开始能在很短的时间内写出不错的文章。
实际上,那时候海外就出现了一波专做文字生成的商业公司,如Jasper.ai与Copy.ai。这些公司开发了机器自动写作平台,用户输入关键字、AI只需几分钟就能写成一篇逻辑与表达不输人类的长文,用于替代写作过程中的大量劳动,并能兑换出商业价值。
但由于OpenAI不对大陆和香港开放GPT-3接口,所以国内的AI研究人员很难用起来,文字生成的相关应用也没能在国内火起。这两年,虽然国内也有许多大厂与高校下场研究中文大模型,但在开源上仍进展缓慢,导致大量的AI开发者止步于高昂的训练成本,限制了基于中文语言的AI应用开发。
在这一波AIGC中,AI大模型在理解人类语言的能力上发挥了关键作用。归功于大模型的发展,不仅文本生成的效果不错,基于文本的图像生成也较GAN时代有了极大的进步。
王超岳就告诉雷峰网,在撰写《AIGC白皮书》时,其实他们内部有过纠结:标题是要写成“AIGC”(AI-Generated Content),还是写成“生成式AI”(Generative AI)?最后,王超岳把票投给了AIGC,因为generative model(生成模型)是一个专有的学术名词,一般是描述模型对一个具体的分布进行拟合,比如GAN。但DALL·E 2.0所做的在某种程度上已经超出了对某一种数据分布的拟合,展现出了通用的图像生成能力。
举个例子,GAN最知名的应用是人脸生成:模型去看海量的人脸照片,知道人脸是一种分布,然后学习到人脸的特征。在2014年还没有能够生成高维数据图像的方法时,GAN是一种很强的生成方法,但局限性也是本质的:
首先,它需要一个特定的数据集(比如人脸),泛化能力差。比如,GAN发布后被用于训练各种各样的人脸特效,但一个GAN无法训练出多种人脸特效,换另一种特效就要新训练一个GAN;其次,GAN在通过文本描述控制图像生成上做的并不尽如人意,这很大程度限制了它成为一个可控的通用式结构。
而OpenAI发布的DALL·E(和之后DALL·E 2)是使用了通用模型:能够同时处理多项语言任务的语言大模型,加打通文字与图像两种模态的CLIP模型,控制图像生成的扩散模型,能够在保证真实性的基础上进一步产生概念与元素的组合,生成更加复杂的场景。
一个例子是AI能够根据文字的描述对图像进行编辑,在添加或移动元素时将阴影、投影与物理表面纹理等因素都考虑进去。比如,人类制定要下图3的位置生成火烈鸟,AI就真的在室外的玻璃边生成两只火烈鸟、并且有影子投映下来:
当指定在上图2的位置(游泳池中间)生成火烈鸟时,AI会自动生成一个适应泳池环境的形象——火烈鸟游泳圈:
文字与图像的多模态研究大体可以分为三个阶段:1、图文描述(让计算机描述画中的事情);2、图文问答(给一张,问这个里的桌子上都有什么东西。机器人需要理解问题,再了解里都是些什么东西);3、用一句话生成(让机器人通过一句话的描述作画)。
多模态的一个重要贡献在于数据源:它很好地提供了文本与图像成对的训练数据,这些数据也是帮助AIGC模型学习到认知的重要素材。
此前阶段一、二的代表应用分别有短视频平台上的AI生成电影解说、智能对话机器人,而到第三阶段,机器系统则必须理解人类语言与常识、物理世界运行法则等,否则无法进行由人控制的跨模态创作。但DALL·E、Midjourney与盗梦师等产品都已经体现出理解人类与世界的突破。
大量的研究实验都表明,当模型足够大,训练的数据足够多,AI能够逐步理解人类语言的抽象概念(如常识与规则)。王超岳在读博时师从陶大程,他们团队就从深度学习理论出发,不止一次通过模型的容量分析证明,大模型在学习通用知识和理解泛化上有更好的表现。
这是之前的生成模型没有体现出来的能力。这也决定了AIGC不光是生成,而是建立在认知与理解上的模型的应用生态。当AI具备基础认知与理解,机器像人一样思考与创作,就不再是海市蜃楼的传说,而是一个正在发生的现实。
03
商业化:在沉默中爆发
现代社会的活动构成,本质是一串串的数字内容:语音、文本、图像、视频…而AIGC可以为创造这些内容提供了一个个基础元素。
实际上,AIGC(人工智能生成内容)一直存在,但直到今年才被国内的资本热捧,一是技术的成熟,二是原先专注于视觉AI商业化的资本扭头才发现,类似Jasper.ai这样的海外NLP公司开始大幅盈利了。
由于创造数字内容的优势,AIGC技术在备受瞩目后也被过去一年追随元宇宙的狂热者们列为打造未来元宇宙的工具。但噱头背后,更多AIGC的从业者相信,AIGC能比元宇宙更快打造出下一代数字世界,一个完全属于AIGC的新赛道。
这背后的原因,是AIGC与当前元宇宙所倚技术的本质差异:以图形学(打造数字人的关键技术)为例,图形学在内容生成上侧重仿真、复刻,而AIGC侧重原创、创造。从图形学出发打造数字人是需要有一个真人作参考的,但AIGC在语音、文字与图像的生成上是从0到1、前所未有。
以电影《无双》为例。AIGC是张静初,图形学则是郭富城。
由于AIGC在写作与画画上,每个字、每个像素都是精心计算出来的,所以用户基于AIGC模型创作的图像与文章全都是世上独一无二的,绝对的原创选手。
数字内容的本质+独一无二的原创特性,决定了AIGC的赛道容量足够大,前者暗示它可以被打造成像互联网内容平台或产品这样的标准品,后者意味着它能获得与人类创作者相媲美的市场认可度。
以文本生成为例。类似Jasper.ai这样的NLP公司在海外孵化了一种新职业,叫“AI灵魂写手”:
人类用户在AI文字生成平台上输入标题与关键字,AI就会生成一篇很长的文章,然后人们再在写好的文章上进行修改,将修改后的文章卖给需要大量高质量的文章来做搜索引擎优化的公司,赚取作品出售与订阅AI产品的会员费之间的差价。
图像生成的盈利模式也如此:比如在海外,用户订阅了Midjourney的会员,用AI生成精美的图像后再将卖给类似iStock这样的图库,从中赚取差价。
由于谷歌搜索向原创文倾斜,而AI写的文章又是全网绝无仅有的原创文章、非信息拼凑,所以谷歌会给这类文章更多流量,提高搜索排名。
这也使Jasper.ai等公司能够迅速获得市场份额。据Jasper.ai宣称,截至今年9月,他们去年的收入超过了4000万美金,今年预计会翻一倍,目前付费用户也达到了7万,估值15亿美元。而距离Jasper ai成立,才不过18个月。
蓝振忠告诉雷峰网,现在AI写出来的文章是具备很高的可读性的。他们曾开了一个微信公众号、用中文大模型写星座运势,也收获了一定的阅读量,甚至有读者在后台评论说:“小编你一定是摩羯座的,这么懂我。” 除了盗梦师之后,他们的一款文字生成工具“HeyFriday”虽然推出时间没多久,但在海外也已经有几千个付费用户。
高速的增长也出现在图像生成领域。数据显示,海外AI作画产品Midjourney推出不过三个月,注册用户已经超过300万。而据雷峰网独家了解,盗梦师推出不到两个月,生成的图像数量已经达到1千万张。
多位行业人士谈道:“说白了,互联网的核心是流量,流量的核心是内容。而AIGC的本质,就是一项生产内容的技术。”
这也意味着,相比上一代要与终端硬件相结合的视觉AI,或世界观庞大的元宇宙,AIGC的商业化落地更具体,投入成本更低、盈利更快。甚至一个更激进的观点是:AIGC能够跑出背靠流量的、与现有互联网内容平台(如小红书、抖音)的体量相媲美甚至超越的“内容生成平台”。
在内容需求旺盛的当下,AIGC所带来的内容生产方式变革也开始引起了内容消费模式的变化。尊重原创的市场,开始敬畏AIGC。
最新作出反应的是图库类企业:
10月底,海外知名图库Shutterstock就公布了他们与OpenAI建立了合作,让用户可以输入文字即时生成满足需求的原创。(实际上,许多行业人士也认为,在AIGC的浪潮中,素材库与P图软件是最先被淘汰或替代掉的行业。)
这项合作不仅是一个传统行业的及时反映,实际上还意味着AIGC商业化变现的一个想象似乎开始落地:打造一个基于生成的全新内容平台。
许多人并不知道这意味着什么,但在一些人的眼中,AIGC的影响力已经开始从服务个人用户到服务实际行业——当前的内容平台主要是基于关键词搜索、推荐,而引入AIGC后,用户所消费的内容就来源于AI对用户的理解。基于推荐的内容是来源于有限的素材库,而基于生成的内容是源源不断的……
AIGC的当局者们,虽然他们是这个赛道的缔造者,但在见证AIGC的一次次魔力中,他们还是被机器堪比人类、甚至超越人类的创造速度与创造能力给吓到。
ZMO.AI的创始人张诗莹说:“例如现在的短视频平台。推荐是将创作者创造出来的有限内容推荐给你,但生成是每一个消费内容的人都是创作者。消费者对内容的反馈可以让AI更了解你要什么,你喜欢什么、AI就生成什么,这将是实时更新并且无限的。”
ZMO.AI是国内最早成立的AIGC公司之一。与Stable Diffusion等擅长艺术像生成的产品不同,ZMO.AI选择的赛道是真实世界的图像生成,如设计。他们最开始专注于出海,在海外推出的imgcreator.ai达到了32万月活的高速增长。
他们认为,AIGC不仅是数字娱乐内容的生产工具,对许多实际行业也有非常大的帮助影响。这个赛道足够大,研究者与创业者能够做的事情也足够多。(Stability.AI的创始人Emad Mostaque也说过类似的话,认为AIGC的赛道比新能源还大。)
单就图像而言,当前的素材主要靠拍摄,既低效又昂贵。比如电商平台的服装上新,目前的模式是线下拍摄,需要化妆师、服装师、摄影师、模特等等,而在未来的AIGC世界中,他们希望用AI直接生成能展示服装的模特图像。现在,他们的AIGC产品“YUAN初”小程序已经在图像编辑上取得惊人的效果:
相比艺术类的风格生成来说,真实的、摄影风格的图像生成难度更高,但对实际的生产与生活有巨大影响。比如设计行业,小到海报、PPT、网页,大到所有商品的外包装、插画等对原创素材要求高的应用,都有AIGC的用武之地。
先不谈取代,目前就有大量的设计师会使用AIGC产品来简化设计前草稿阶段的工作。张诗莹讲了一个建筑设计的例子:他们与一个建筑师合作设计了一座层高大约25米的交响音乐厅——
在没有AIGC之前,建筑设计师是先用铅笔画草图,画完之后觉得好看再弄成彩铅,彩铅版本满意后再做一个3D的视觉效果图给甲方客户看,甲方满意再设计建筑里面的工程结构等等。而有了AIGC之后,他们从第一步就极大地节省了时间,快速将设计师脑海中的方案用AI生成出来,发给甲方看。
“在AI写几句话、P个图时,你可能觉得没什么。但如果有一天,AI开始设计建筑,你就要重新思考它的价值了。”
04
一切只是时间问题
刘慈欣在小说《朝闻道》里借用外星人“排险者”之口道出了技术发展的真理:
“人类获得宇宙终极奥秘的起点,始于第一只猿猴对星空的仰望。”
如同人对宇宙的探索,AI也在不断探索人类。如今的AI类人猿(AIGC)已看到广阔的星空。当下越来越多研究者参与到AIGC的探索中,AIGC距离更高层级的思维创作也越来越近。征服,似乎只是时间问题。
过去的十年,是AI腾飞的十年。十年的风起云涌中,有趣的技术点层出不穷,有的成为一个新的赛道(如识别之于安防),有的则在商业化落地的过程中“胎死腹中”、昙花一现。
大浪淘沙中,人们对于AIGC既期待,也谨慎。
比如,关于AIGC能否在国内的商业落地中有所收成,一部分投资者是担忧的。
以文本生成为例,AIGC的商业变现实际十分依赖用户驱动。但目前国内的中文语言大模型在开源一块缺少高质量的语料数据,导致中文版的AI在不同话题的写作质量上参差不齐;同时,国内的文字从业者在人力成本上普遍低于海外欧美发达国家,AIGC在内容生成一块替代人力的节约成本也明显低于海外市场。
落地的AI在涉及与人博弈的场景中,AI所提供的服务成本必须在相较于人力成本上有明显优势,才会被现有行业所接受——这几乎是一个心照不宣的定律。工业质检就是一个很好的参考例子:传统工厂在质检环节优先考虑的就是成本,当一个质检员工的月薪普遍是6-7k、而一个视觉AI解决方案在成本无法媲美、精度又无法实现高准确率时,就难以说服行业。
心辰科技向雷峰网坦言,他们的文本生成工具目前定价是Jasper.AI的十分之一,但国内用户的接受程度仍在爬坡期,这也需要中文大模型(GPT-3、PaLM等均为英语大模型)的不断进步。
但更多的人相信,AIGC会改变现代生产与生活的方方面面,因为AIGC所解决的问题是现存的、而非假设的。这些问题很具体,并且在大部分的场景中,它能部分取代或完全取代繁重的人力,不仅降本增效,而且降低内容的创作门槛、激发人的创造力与想象力。
比如画画。过去需要接受十多年训练来获取的技能,如今零基础的人也以使用AI来创作,且作品的质量不输专业人员手绘而成的作品。这也让人们进一步看到创作的本质:思想与观点,从来是创作中的灵魂,而非方式与工具。
尽管近日来有许多公司在产品的宣传与定位上挂了AIGC的头衔,但据雷峰网了解,目前无论是文字生成还是图像创作,AIGC的技术壁垒还是存在的。
此外,算法与数据的选择也决定了各个企业后续在不同场景中的表现高低。目前,在商业化中,选择技术壁垒高、护城河足够安全的落地场景,成为各个AIGC从业者的当务之急。
AIGC的创业者们告诉雷峰网,他们相信,未来AI的技术也许能改变权游的结局,未来很大可能会出现一个完全基于生成的内容消费平台,未来AIGC会在元宇宙、Web 3.0中成为关键的技术,但在奔赴未来之前,他们仍要跨越一座又一座山丘。
但至少,他们已经知道山丘的位置。
注:文/陈彩娴,文章来源:雷峰网(公众号ID:leiphone-sz),本文为作者独立观点,不代表亿邦动力立场。
文章来源:雷峰网