【亿邦原创】2025年7月31日,在杭州举办的浙江“平台+产业”AI对接会上,阿里云副总裁、通义大模型业务总经理徐栋发布了主题为“AI大模型时代下行业&产业发展新引擎”的专题演讲。徐栋表示,当前大模型通过海量语料训练(如通义模型学习36T tokens),实现“机器理解人类语言”的范式转变,不再要求人类适配机器语言。同时,多模态融合加速,实现“三进两出”:支持文本、语音、视觉(图像/视频)输入,输出文本与语音。阿里的视频生成模型“通义万相”进入落地阶段,可生成营销动图、水墨风格视频,超越Sora、逼近Veo3水平。
大模型正从“技术炫技”转向“商业实用”,核心价值在于让机器理解人类语言并调用工具解决实际问题。阿里云通过通义系列模型的多模态进化与企业级落地实践(导购/视觉管理/数据决策),推动AI成为新生产力引擎。未来半年,模型精度跃升与视频生成普及将开启更广阔的产业应用空间。
以下为演讲原文,经亿邦动力编辑:
尊敬的各位领导、各位来宾大家上午好,今天跟大家简单报告下阿里巴巴在大模型方面的想法和进展。
我负责通义大模型的业务落地,主要是跟很多企业探讨怎么样让大模型发挥商业价值。今天跟大家主要报告两部分内容:第一,怎么理解大模型,当下大模型的核心能力大是什么。我们一直认为一代模型有一代模型的能力,今年1月到现在,模型有了很大改变,让我们看到很多新的可能性。第二,我们怎么落地,以及在落地上的思考。
一、走进大模型
首先我们理解大模型。大模型是AI的一部分,它是AI子集。AI大家很熟悉,比如说之前经常会用到的人脸识别、语音转文本、翻译,已经融入我们的生活了。
整个AI技术也特别简单,分两部分:第一部分是训练,给它一堆数据,让它从数据里找规律,这个规律最后可以被表达为一个数学公式,简单来说就是这样一个过程,数据量越大它能表现的规律也就越好。
第二部分是推理阶段,推理阶段也可以理解为用阶段,如果这个模型对这个规律的复现越好,我们会认为它的精度越高。像人脸识别这种相对垂直的算法已经用在非常多的地方,因为如果一个模型精度超过95分以上,我们一般会认为这个AI算法已经可以信赖了。
1、让机器学会人的语言
这次AI的明显改变是,它跟原来的AI不太一样,它是一个有更强泛化性的模型,因为这次大模型不是让人去学机器语言,而是让机器学会了人的语言。
这代大模型核心的训练过程就是去学非常多的人类语料,像通义系列模型,上一代模型学了36T的tokens,也就是30万亿的词源,而且是高度清洗过的数据,大概是10亿本书。所以大家可以简单理解为,它看了10亿本书,总结了人类所有的知识和规律,相对来说它就学会了人的语言。
过去AI只能解决一件事情,但这一代大模型有很强的泛化性,越来越像一个人。
当然比较有意思的是,这个模型目前在不同任务上精度表现不太一样。比如说你去问一些历史知识、常识,它回答得还不错,让它解析数学题目都不错。但是一些复杂指令依然会出现小问题。比如我们问0.91和0.8谁大,过去这个模型也会出现一些问题,也就是说,有些常识类的问题不一定处理得最好,这跟它的指令遵循和训练方法有关。
所以我们也是特别期待,如果整个大模型在所有下游任务里都能表现非常好,都超过95分,这个时候大家对模型会产生非常深的依赖。
所以我们认为这代技术底层的改变,不再是人去学机器的语言,而是让机器学会了人的语言,很多工作内容由模型去实现。
这张图更多是让大家去感受下节奏,阿里巴巴在2023年成立通义实验室,把阿里巴巴旗下的大模型、AI相关板块做了一个聚合,我们在2023年初开始做模型发布,越到后面越来越紧密。2023年是一年发几个模型,2024年基本上一个月发一个模型,到2025年,本来我认为每个月发两三个模型就不错了,后来发现还远远不止,我们上周就发了四个模型。所以基本上现在一个月会发多个模型,因为模型有很多不同类别,有多模态模型、有推理模型、代码模型以及各种各样不同维度的模型,所以我们看到模型迭代节奏越来越快。
大家经常会看到一个现象,突然有一个模型出来了打榜很靠前,今天整个模型生态就是一个你追我赶的过程,一个模型出来之后,占据榜单或者最领先的时间点差不多也就是1-2个月,所以我们看到模型的迭代节奏会非常快。
2、让模型能力更靠近商业化
这里也想跟大家分享下我们自己的模型工作内容,这跟我们未来的商业化产出会有比较紧密相关的连接。我们会在三个方面持续投入,让模型能力靠近商业。
第一个事情是,我们会进一步去增加模型知识,提高效率。简单来说就是多快好省。你用模型的成本越来越低,你的速度越来越快,而且越来越聪明,所以这是第一个轴。我们可以看到训练数据量也会进一步增加,人类高质量的语料数据应该是在100-150T,目前大概的数据量是36T,所以未来依然会有越来越多的数据训到模型,模型会掌握越来越多的知识。我相信模型会越来越懂得全世界所有的规律性的事情。
第二个事情是提高模型的性价比。性价比如何变高,就跟网络算法有关。大家都听说过DeepSeek在今年年初讲到怎么让成本降低,这项工作依然有很多事情要做。所以今天全球范围内能持续做事情的公司不会特别多,因为在这个技术栈上要投入非常大,基本是100亿人民币到100亿美金之间。
下一个维度跟产业落地更加紧密挂钩,也就是我们希望这个模型变得很聪明,聪明意味着它能够帮我去处理最终的任务,而不只是对话。
大家应该对慢思考比较了解了,但是我们今天想讲的是慢思考还不够,而是你在慢思考过程中,需要学会用工具,因为人跟别的物种有很大的两个区别:一是人有语言,二是人会用工具,而且是辩证地用工具,每次基于工具召回的结果来判断我是用对了还是用错了,我是不是应该换种用法。
所以我们今天特别希望模型能够在有计划地慢慢思考的过程中,去使用正确的工具,以及正确判断工具的结果是对还是错。
假设今天我们让模型能持续思考两个星期,这个思考不是很浪费的思考,而是让它不断跑两个星期,在过程当中它会用仿真软件、用专业材料学知识库,也会调CRM、ERP,我们就会发现它能找到一些更加有用的材料假设方案。这些事情我们跟TCL有些合作探讨,希望模型能够不断思考,但过程当中它要用到很多工具去不断纠偏,最后产出一个不同的假设,这就是我们今天特别希望模型做到的。
第三方面,我们看到Z轴想讲的是,模型可以很聪明,但是模型不应该是一个笼子、不应该是一个哑巴、不应该是一个盲人,我们希望它能够把不同模态跟我们的语言模型做对齐,也就是跟我们的智力能对齐。
这里面目前我们大概能够做到三进两出,也就是文本进、声音进、视觉(图片和视频)进,文本出、声音出。目前在这个基础上还有很多工作正在展开,目前我们也希望把这样一个全模态的模型,能够放到不同的消费电子硬件里,比如说汽车、眼镜,最近很多消费电子都会对跟大模型去做结合,我们也是特别看好这个方向。
从长期来说,有可能这个模型就是一个模型,而不是分这么多不同的维度,只不过今天在过程当中我们要去做很多探索,让模型在每个领域的能力变得最强。这是简单跟大家说下我们的工作内容。
大家可以期待下,今年1月到现在已经大半年过去了,再过半年可能模型又会跃升一些能力,它的精度会从85分提升到90分,甚至到95分,它就可以在很多任务上就可以帮助商业、帮助企业家做越来越多的商业创新。
3、典型应用
这里简单跟大家同步一下比较典型的应用。
大家可以看到在左边是让模型去看一个贪吃蛇的小游戏,你只要跟他说请你帮我复刻下这个游戏,基本上它就可以帮你写100行左右的代码,帮你复刻出来。这体现了模型首先具备理解能力,其次具备计划能力,第三具备工具调用能力,这就是一个比较典型的案例。
半年前模型是很难做到的,现在可以比较轻松地实现一些简单任务。
再比如做独立站地时候,商品介绍都是一个H5页面,模型通过指令就可以生成一个H5。因为一个H5页面既可以是独立站页面,也可以是一个APP,也可以是PPT的报告,所以今天看到的是一句话就可以生成一个H5页面,这件事情也已经越来越普遍。
第二个不是光一个文本进、文本出的架构,而是我们可以输入更多的视觉信号,这个模型除了刚才说的看的10亿本书之外,他同时学了50亿对的图文对,也就是说它看到很多图片,比人类要看得多,所以它具备了几个能力:
1)万物识别。今天所有的花花草草、文物景点、汽车、日用品它基本都能认得。
2)目标检测,视觉检测领域。给它一张图片可以精准地帮你找到内容,并且返回坐标轴给你。我今天如果这张图片问他这图片里哪个是勇敢的人,过去的AI算法就比较难去理解什么叫做勇敢,因为它只知道苹果、香蕉,它不太知道勇敢这个词是怎么定义的。今天这代模型已经开始具备了识别什么叫勇敢,能把语义做对齐。
同样我们也看到今天这个模型替代了很多OCR的能力,也就是票据识别的能力。今天这个模型已经在很多金融机构去做票证、票据甚至是跨国的身份认证,比如今天我在越南怎么样去做身份认证,多语言能力怎么去提升。这是这代模型在做的事情,也就是模型除了能够处理文本能力,还能处理更多的视觉能力。
这是我们前天刚发的模型叫通义万相,这个模型也很有意思,它不是去理解,它是直接生成。它比较有意思的是你可以通过指令让它生成我需要的一段视频,原来比较麻烦,指令遵循的效果不是特别好,但是目前可以遵循得非常好,而且相对比较稳定。我们可以看到不同风格,比如说水墨画或者一个比较复杂的海报,基本上都能生成得比较好,这个模型目前在很多营销素材、商品营销的动图上被使用。
这代模型跟语言模型比还处于早期阶段,可以理解为是跟去年的下半年差不多,但是这个模型进度很快,估计在过半年应该会在越来越多的视频创作里用起来。
我们也可以看下这个模型现在已经到了哪个颗粒度的内容——它可以有很多元素,不管是人的情绪还是动作表现都可以做,大家今天看到的所有视频内容都是由这个模型生成的,并不是拍出来的内容。
比较难生成的是动作,模型不是学会了物理规律,知道人有五个手指,而是看了一堆数据之后掌握了这个规律,然后复刻这个规律。
今天我们看到一个转身的动作、大幅运动的动作,都是需要大量数据去训练才能得到的。
另外也可以看到它对环境各方面的能力,包括镜头的运动也可以产生更多的控制能力,所以这一代模型我们认为已经进入到了GPT3.5到4的阶段,也可以慢慢进入到产业落地当中。
简单跟大家报告一下我们的模型能力。这三个模型有很多能力上的创新,并且能够跟很多产业去做落地。
二、大模型应用落地方法论
接下来跟大家报告第二部分,我们怎么去看待落地,怎么应用大模型。
我们会把模型分成三层,最前面的是大脑,模型有很多类别,有多模态、理解类模型、生成类模型、文本类模型,未来应该会越来越统一,它有可能会分大中小,最贵、最便宜、最快。
中间这层相当于是把大脑分装出来,我们要加知识库、插件,我要对大脑增加控制,跟客户的系统做打通。
最上面是两个比较明显的应用方向:一个是产品+大模型,最典型的是消费电子,今天所有的手机都叫AI phone,所有的PC都叫AI PC,所有的汽车原来讲自动驾驶,现在讲智能座舱,整个汽车就是一个超级大的智能体,里面有很多麦克风、摄像头和屏幕,可以通过大模型改变交互能力,创作很多新的商业体验。
另一个方向是企业+大模型。每个企业都能用到大模型,这跟产品形态有关,因为大模型改变的是生产力。每个企业都有自己的流程,怎么样让流程效率变快,提升变得自动化,大模型可以做到很多。
所以我们可以看到有容错率比较高的场景,像一些销售场景、导购场景,大模型越做越多。我们也看到一个人就可以开一家公司,如果我们平台工具足够好,企业内部流程已经能够有Agent来表现,这是生产力的提升。
接下来,我们简单总结三个小场景,大家可以感受一下,这些场景一年之后还在跑,而且跑得非常不错,所以我想通过这个场合来跟大家简单报告下。
第一个是导购。导购主要就做三件事情,一是我想了解你的品牌,二是我想了解你的商品特点,三是我有些问题想问你,你有什么推荐给我。就这三类问题。它的容错率很高,而且很聚焦,相对闭环。
过去导购很难做到7×24小时,但是今天通过大模型导购,只要挂在公众号里,挂在APP里,基本上能够和很多消费者随时随地发生简单的连接,也就是把刚才说的三个问题回答得比较好。绝大部分的零售企业都在用大数据搭出这样一个智能导购体系,去提供简单服务,ROI比较明显,因为它的成本相对比较低。
第二个事情跟多模态有关。线下很多零售门店有很多摄像头,这些摄像头怎么样利用起来去做些管理动作,比如线下门店的品效怎么去管理,怎么样让管理规范做得更加好,甚至怎么让货架摆放产出变得最高,也是一个很重要的事情。
过去我觉得很难实现,因为过去的AI算法,每做一个任务要单独训一个模型,比如你要识别垃圾桶是否及时清理,要找三千张照片,我基于这三千张照片帮你训一个垃圾没有倒掉的算法识别。但今天不用,现在的模型有比较强的视觉理解能力,它可以比较好地基于摄像头去做泛化理解,对店铺做一个远程管理,这个能力目前也是越来越普及的。
第三个是智能问数。一汽完全是基于公共云上的服务来给他的管理者提供智能问数的能力。过去他们的董事长一层一层往下去挖掘数据,周期比较长,快的话要半天,慢的话要一个星期,因为数据是一层层往下挖掘的。那天就很简单,今天一汽董事长到了广东,只要问钉钉,帮我把广东所有的经销商和不同车型做一个降序排序,销量做一个降序排序,马上就可以出来相关数据,准确率非常高。
大模型从实验室慢慢变成一个产品,大概花了两三年时间,今天大模型对于整个行业的改变是普遍而深刻的,虽然还处于相对早期的阶段。
我在阿里云有十年了,我能很明显地感受到从云到大模型的变化。过去我们讲云,其实跑的很多都是泛互联网公司,讲到IT大家觉得很遥远(如果做业务)。所以过去我们更多聊的是技术部门,但今天大模型不一样,大模型每次都去交流,基本上都是和业务部门探讨,都是公司的决策者、董事长参与,因为他们都希望探索业务新模式。
所以在这里,我也很期待以后有机会可以和大家通过AI、通过1688平台,拓展新的商业边界,提高商业效率。
谢谢大家!
文章来源:亿邦动力