备受关注的中国版Sora视频模型快手可灵,即将迎来新的对手。
7月16日消息,钛媒体AGI获悉,字节跳动团队将会在7月19日(本周五)大范围分享文生图、类sora新视频等全新人工智能(AI)模型技术进展,尤其在长视频、高动态方向上具备创新技术。
早前,“字节跳动开源”公众号发布消息称,其将在新加坡举办关于世界模型(World Models)探索的AI技术菁英论坛(ByteDance AI Luminary Talks)活动,字节跳动研究科学家周大权将会围绕“连续高动态的长视频生成方案”展开演讲。
一位消息人士对钛媒体App表示,字节跳动内部将 AI 大模型设为集团P0最高级别的方向。另一位消息人士则指出,除了上述研究团队之外,抖音、剪映等内部多个团队也在研发 AI 视频模型应用,预计将在近期公布。
而与此同时,国内唯二的短视频龙头快手在 AI 视频大模型领域进展迅速。继6月6日快手13周年发布并邀测可灵模型应用之后,7月6日,快手在世界人工智能大会(WAIC 2024)期间开源可图文生图大模型,以及免费上线可灵Web端。
快手透露,全球首个用户可用的真实影像级视频生成大模型可灵平台申请用户数超过50万,开通用户数超过30万,生成视频数达700万以上。
这意味着,曾在互联网短视频平台领域对战的两家中国公司抖快(抖音/字节跳动、快手),如今则悄然展开着一场围绕中国领先 AI 视频大模型的新竞争。
中国两大短视频巨头转向人工智能
实际上,AI 是短视频平台中关系最为密切的底层技术。
“只有短视频平台业务,在没有机器学习的时候是不成立的。大家想象一下,大部分用户是不会因为一、两个你记得的短视频去打开一个APP的,打开APP一定是相当长一段时间的沉浸式体验,能带给非常多收获的感觉。所以,AI是(快手)业务的核心,没有AI技术,这个业务是不成立的。”快手高级副总裁、快手主站业务与社区科学负责人盖坤(快手于越)表示,相比电商、搜索等场景,短视频更需要 AI 技术加持。
而有趣的是,负责 AI 产品的盖坤曾在字节任职过。
实际上,过去10余年中国移动互联网时期下,从桌面、浏览器,到输入法、天气软件,都在寻找能够占领用户心智的下一个“微信”。然而,最终我们发现,能够与微信相提并论的产品是两款短视频直播产品——抖音和快手,当然这背后有5G、疫情等因素,但抖快确实已经成为国民应用级别产品,抖音日活用户超过6亿,快手日活用户则已经达到3.94亿(2024年Q1)。
2024年2月,继ChatGPT之后,OpenAI公布的Sora AI视频生成模型再度引爆全网。通过简短或详细的提示词描述,或一张静态图片,Sora就能生成类似电影的逼真场景,涵盖多个角色、不同类型动作和背景细节等,最高能生成1分钟左右的1080P高清视频。
“Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”OpenAI指出,Sora不只是视频生成模型,而是“世界模拟器”。
自今年5月起,国内达到类Sora级别的 AI 视频模型技术陆续公布,包括生数、智象未来(HiDream.ai)等多家企业都在积极布局。而就在6月6日,快手可灵 AI 视频生成模型开启邀测,整个生成效果直逼Sora,引发关注。
盖坤指出,快手的 AI 技术主要在短视频内容推荐、内容生产和内容理解三个层面进行应用布局,大模型时代落地的则是快手快意语言大模型、十万亿参数规模的推荐模型SIM、5月公布的可图文生图模型、6月发布的可灵 AI 视频模型等技术。
不仅是技术,快手也在商业化层面进行布局。盖坤表示,基于快意大模型构建的视频和直播脚本生成、广告搜索客服叠加数字人技术,使得AIGC日均消耗增长达到2000万。
相比于快手,由于企业暂未上市,导致抖音和字节跳动对于 AI 大模型的布局略显神秘。
过去一年多,随着 AI 大模型浪潮席卷国内外,字节跳动全面追赶,并对AI大模型进行模型层到应用层的全面布局。
其中,在基础大模型领域,2023年8月,该公司上线首个大语言模型“豆包”及多模态大模型BuboGPT。其抖音云雀大模型通过首批《生成式人工智能服务管理暂行办法》备案,面向公众开放。同时,字节跳动基础模型在语言和图像两种模态上均进行了布局,两个团队均向TikTok技术负责人朱文佳汇报。
在AI应用层,字节跳动已于去年11月成立新AI部门Flow,目前已推出三款AI对话类产品,包括豆包、扣子和Cici。其中,豆包为一款聊天机器人产品,可以完成问答、文本生成、语言翻译等多种任务,还可以根据用户需求和上下文进行自适应问答,提供个性化服务。扣子是一站式AI Bot开发平台,无论用户是否有编程基础,都可以在扣子平台上快速搭建基于AI模型的各类问答Bot,可完成解决简单的问答,并处理复杂逻辑的对话。
进入2024年,字节跳动加大产品研发速度,持续推出AI学习伙伴河马爱学、AI剧情互动产品猫箱、AI生图产品PicPci、多模态数字人产品以及AI生图、AI生视频产品等多款AI大模型领域产品。
同时,最新消息显示,字节跳动还在围绕AI硬件进行布局。其中一条产品线聚焦可穿戴AI设备,以刚刚被字节跳动收购的耳机品牌Oladance团队为基础进行探索;另一条产品线负责探索手持类AI设备,更接近对现有主流计算设备的AI化延展,成立更早,与AI应用团队Flow也更紧密。而且,字节跳动旗下剪映也在研发AI产品,名为即梦。
对于 AI 算力底层,之前字节跳动旗下火山引擎首次发布了自研的视频编解码芯片。字节跳动副总裁杨震原曾透露,公司无通用芯片商业计划,没有涉足CPU、GPU等通用芯片业务。
因此,整体来说,抖音/字节跳动和快手从底层研发,到产品和商业化层面都在布局 AI 大模型技术,希望在 AI 时代下抢得先机。但是,截至目前,暂未出现抖音利用 AI 大模型实现商业化的更多信息释出。
场景难通用,用 AI 赚钱的时代才刚刚开始
“过去一年,全行业都继续投入到生成式AI和大模型热潮当中,每家企业都在努力思考如何将 AI 融入业务,都深信 AI 将会成为未来技术创新和商业模式变革的核心,甚至有望带来比互联网更大的影响。但结果是,英伟达成为全球市值最高的公司,而期盼的 To C端 AI 杀手级原生应用迟迟没有出现。”
“乱翻书”主理人潘乱的这句话,打中了当下大模型热潮背后的隐忧与真实情况。
创新工场联合创始人汪华曾做过一个统计,中国实际上处于美国上半年第一阶段的应用爆发前期。虽然最近大家看到很多产品在大量推广,用户量也在迅速增长,但是把所有应用加在一起,日活也不过就是 1000 万,中国有 12 亿网民;而美国 3 亿人口就有大几千万的日活,相比之下还有很大的差距。
这说明,虽然 AI 未来已来,但是模型的产品化还远远没有到来,甚至可以说是模型应用落地才刚刚开始。
“大家还是太焦虑了,大模型从开始到现在才一年多时间,整个的应用发展,本质上还是要随着模型的成熟和整个应用生态的构建逐渐发展。”汪华认为,ChatGPT 作为通用工具,用户平均时长是七八分钟,但我看过很多做社交娱乐的创业公司,他们的平均使用时长超过 150 分钟。推理成本只要降 10 倍,工具类的应用就可以做大体量免费。推理成本降得更低,高时长娱乐性的应用才能做到大体量免费,所以大用户量的工具,我觉得今年年底到明年年初就会实现。再往后是衣食住行,这类应用需要更高的模型性能,以及商业模式整合,从吃喝玩乐到衣食住行,这个时间周期大约在 3-4 年之内走完。
而作为抖音和快手这种短视频龙头来说,将 AI 技术“随风潜入夜,润物细无声”实现落地,这可能他们想要达到的终极目的。
多位 AI 领域从业者向钛媒体App坦言,目前 AI 大模型技术更像是“文科生”,很难理解数学问题,所以其应用场景的范围非常有限,当前模型的最大作用是提升效率的“生产力工具”。
很显然,用 AI 赚钱的时代才刚刚开始。
据麦肯锡最新发布的一份全球调查报告称,65%的受访者表示企业会经常使用生成式AI。这比10个月前的调查(33%)几乎翻了一番。其中,服务业对于 AI 技术的使用率增幅最大。
同时,四分之三(75%)的受访者预测,生成式 AI 将在未来几年内为其行业带来重大或颠覆性的变化。
有熟悉字节的消息人士曾告诉钛媒体App,字节跳动内部对于 AI 模型的技术应用布局非常广泛,且存在一定的内部“优胜劣汰”竞争策略,多个团队加紧比拼当中。
盖坤则表示,快手希望坚定为用户做最好的 AI 技术。
MiniMax创始人、CEO闫俊杰曾对钛媒体App表示,今年上半年,公司开始意识到,在一些偏生产力的场景里,“我们开始具备局部优势了”。至少三年后,国内才有可能出现“杀手级”AI应用。预计MiniMax首款 AI 视频应用将最快于8月推出。
“坦白讲,我觉得大部分(国内)公司都还没有拉开差异化,大家都差不多,可能模型水平也差不多,产品也差不多,然后就会开始‘拼价格’。我觉得这个东西不是坏事,其实是逼着大家能够更好来做技术创新。”闫俊杰表示。
注:文/林志佳,文章来源:钛媒体(公众号ID:taimeiti),本文为作者独立观点,不代表亿邦动力立场。
文章来源:钛媒体