本次分享主要聚焦四个部分。
第一,大模型作为数字化建设的重要组成部分,为何在数字化框架内必须将其作为一个核心的考虑要点。同样的,在整体预算可能收紧的情况下,大模型作为新增预算,很多企业在立项的时候需要去考虑为什么要去投入大模型。
第二,介绍当前大模型落地的实际进展,包括企业所关注的应用场景,以及哪些场景的应用最为广泛,哪些业务的应用最为频繁。
第三,探讨大模型实际落地过程中遇到的一些问题。
第四,结合目前已有的部分企业开始落地大模型的情况,分享一些我们在大模型推广方面的经验。
01
大模型赋能企业数字化建设
首先,我们探讨一下大模型与企业数字化建设之间的关系。数字化建设本质上仍然离不开企业自身的战略解码,包括财务目标的实现,因此,所有的数字化变革都源于企业的业务需求。然而,宏观环境的不确定性导致近两年企业业务并不稳定,从最优秀的企业来看,A股上市公司今年上半年的整体利润为-2%左右,整体净利润规模约为2.9万亿元,其实2023年就已经出现了一定程度下跌的趋势。
这意味着,中国最优秀的企业群体的整体利润正在下滑,其中大部分甚至是国有企业。国有企业今年上半年的利润增长同样为不到-1%,只有最好的央企今年上半年的利润总额有所增长。如果我们将价值创造定义为最终产生的利润,那么实际上,这个价值整体趋势是下滑的。这也就对数字化建设提出了明确的要求,即如何创造新的价值。
基于这个大的数字化战略目标,无论是在财务方面还是业务方面,本质上所聚焦的是价值创造目标。一方面需要拆解至商业模式层面,思考如何进行创新;另一方面则要拆解至能力建设层面,尤其是数字化能力建设方面,探究如何筑牢更坚实的基础。
在这个过程中,我们拆解出了8个要点。在能力层面,涵盖技术、数据、文化和运营等方面;而在商业模式方面,更多地涉及商业模式创新,包括对外的体验侧和需求侧,以及对内的产品侧和供应链侧,也就是企业内部业务流程。可以看出,在绝大多数要点上大模型都带来了一些变化。
首先,从基础的能力建设角度来讲,大模型释放了过去较为核心的一些非结构化数据的价值。未来,尤其是展望到2025年甚至2026年时,大家主要的期望还是集中在技术,尤其是模型技术的迭代上。
其中最核心且我们较为看重的一点,是模型技术本身的自主学习与决策能力。实际上,目前在模型侧已经有一部分研究论文开始朝着自主进化的方向进行探索,这意味着模型不能仅仅基于当前的训练给出结论,而是要在持续运营的过程中实现自我迭代。这就如同现在一些Paper中所提到的模型的终身学习,例如阿里的Paper中提到了自主进化,其本质意思是一致的,即技术本身是否有可能实现自我迭代。这也是未来我们在展望未来两年大模型技术时,认为最核心且最具价值的一点。
基于这两个要点,对于商业模式而言,首先我们可以看到内部业务流程存在很大的变革机会。过去的数字化方式基本上是先确定业务流程,业务部门的业务专家先确定需求文档,然后IT团队将其转化为产品需求文档,再进行落地实施。也就是说,过去的业务逻辑是先确定流程,本质上是将SOP固化在系统中。
而正如前面所提到的,未来的技术具有自主进化的功能,最初可能体现在模型的自主进化上,但当它转变为内部业务流程的自主进化时,就不再是单向的业务流程决定系统,而是当系统有更好的进化方向时,有可能会影响业务流程。这样一来,无论是内部的产品创新还是供应链创新,都会有新的源头。
举个简单的例子,有一些企业用户提出,在产品研发方面,过去产品研发基本属于知识密集型,主要靠投入人力,企业通常会关注在产品研发的费用,以及研发人员的数量、人力资源质量分布、软件专著和论文发表情况等,这是过去衡量研发的一套思路。而在这个过程中,大模型能够为这种知识密集型流程创造更大价值。比如,我们看到有化工企业在考虑,在产品研发过程中过去积累的知识密集型文档能否通过大模型生成新的配方。
过去传统数字化在产品研发方面更多是在做流程和协作。但大模型对过去的产研体系有一定变革,这是我们从业务流程层面,尤其是内部业务流程层面看到的最大重塑和变化,也是未来几年大模型最值得期待的一点。
关于体验创新这块,是高度的个性化服务,这比较容易理解,在此不展开赘述。
总体而言,从大模型在过去两年来的发展来看,当前仍处于初级阶段。落地的项目按照我们刚才所讲,更多还在体验侧,以及激活非结构化数据的价值上。但未来,无论是在流程变革还是价值创新层面,我们对模型技术都有更多期待点。这其实是当前推进数字化最核心的、需要大模型的变化原点。
02
大模型当前落地进展
第二部分,和大家分享一下大模型在企业内部落地的进展,这也是基于我们与100多家大型企业持续沟通和交流的结果,他们之中绝大部分收入都在100亿以上。
第一,落地阶段。去年绝大部分企业还在观望,今年基本上2/3的企业已经开始投入实际探索甚至是进入试点速赢阶段。从预算角度来讲,去年我们沟通时,大部分企业预期拿出整个AI预算的10%,如果放到整个IT预算里可能就不是很多。但今年沟通时,绝大部分企业提到大模型预算占IT预算的比例,目前大部分提到的可能都是5%左右。
在与大部分企业沟通时,由于现在即将进入2025年规划季,虽然整个IT预算明显下降,但大模型基本上是大家唯一看到的正向增长的IT预算项目。后续,我们会在第四季度重点调研明年大家对于大模型IT预算的投入预期,为明年大家做规划时提供更好的指导。
第二,落地手段。绝大部分企业还是采用私有化部署的开源模型,重点还是在上层应用的定制开发上。
第三,落地目的。关键核心主要在于利润问题,在这个过程中,并非仅仅是简单的减员、降本增效,尤其是对于很多央企而言,更多的是在新业务或者老业务翻新的过程中重塑业务模式,从而提高业务本身的人效。因为在央企的评估指标中,如国资委给出的指标里确实存在全员劳动生产率这一项。所以,我们所说的降低成本、提高运营利润,主要是指在创新的新业务中是否有更好的人效,这可能是央企比较关注的一个要点。
第四,落地场景。从通用角度来讲,大部分落地的项目为知识库项目和ChatBI项目,很多企业与我们交流的需求中,要落地的项目基本也以这两类居多。从职能部门角度,最早通常是从营销跟销售开始,基本是以客服或者营销素材生成为起点。但在进一步推进的过程中,还是存在明显的门槛。
从2025年和2026年的角度来看,我们更看重研发这一块,研发不仅是单纯的产研场景,还包含生产环节。其核心原因在于过往的研发及生产过程中有大量成熟案例的沉淀,尤其是非结构化知识文档的沉淀,另外大模型也确实适合解决这些问题。因此,我们认为未来研发是更值得大家关注的生产场景,企业在内部探索时,研发侧的价值更值得关注。
从行业角度来讲,主要围绕央企和国企,重心集中在能源行业和金融行业。此外,我们建议制造业企业更多地在研发场景中关注这个点。
03
大模型在企业中的建设情况
3.1 企业落地AI大模型当前主要挑战
接下来和大家分享一下项目建设过程中的一些问题。在项目建设过程中,我们总结了几个大的方向。首先是大家关心的建设路径问题,即到底是选择进行能力建设还是应用建设,以及模型是否需要训练等。这些是大家从建设本身角度首先关心的问题。其次,在核心规划和落地时,大家主要关注两个点,一是业务收益,二是落地的可行性,以及如何进行供应商的选型。
首先是关于能力建设和应用建设。在能力建设中应该关注哪些点,我们的建议基本上有几个。
第一,关于训练的问题。目前来看,绝大部分企业当前在能力建设角度还没有进行太多的训练和微调。相对来说,这对于绝大部分企业可能更合适一些。背后有几个核心原因,一是模型版本还在迭代,今年尤其是上半年,大部分模型厂商基本每个月都会发布一个新版。目前大家预计GPT-5会在今年年底或明年年初推出。在这样的大背景下,如果进行微调或预训练,本质上模型与数据知识会耦合在一起。一旦更新模型,上面所有知识的复用效果基本就消失了,这是从建设成本角度的第一个考量。
第二,底层算力问题。实际落地建设时,首先涉及到可能不只是几张英伟达的显卡,肯定还会涉及到国内各种异构显卡来支持训练。这时就会出现显卡本身的效率问题,尤其是异构显卡的效率问题。而且国企和央企的算力不一定那么完整,过去也没有做太多储备。所以,对算力的要求门槛较高。实际落地时,如果涉及很多异构算力,如何用好算力不仅需要有经验的模型开发人员,也需要底层显卡的芯片厂商参与其中。例如已经进行过训练的某央企,就有大量科大讯飞和华为的团队驻场,帮助解决实际训练问题。所以,训练过程中,不仅算力是问题,背后所需的人才也很稀缺。
第三,不建议只选择一个百亿参数的模型,能力边界拓展性会更弱。现在除了绝对的头部企业在进行模型训练以外,绝大部分企业还没有进行训练,我们也认为现在对于大部分企业来说不是进行训练的特别好的时间点,2025年甚至2026年可能是比较好的选择时间点。
3.2 大模型能力建设的三层架构
除了关注底层训练以外,在中台层面,尤其是中台的三件套工具希望大家重点关注,即Agent、知识工程和数据分析。核心原因是我们刚才提到的绝大部分场景,基本上这三件套工具都能支持到。
虽然上层列出了很多场景,但实际上这些场景基本都能被这三件套工具支持到99%。所以,在进行能力层建设时,不希望每次建设的场景背后的后台工具都是单独开发的,这些工具的复用非常重要。对于进行能力建设的企业来说,这几套工具的选择以及搭配协作,是在能力建设过程中比较核心的一个点。
第二个方面是关于如何评估业务收益以及技术可行性。在此之前,首先需要构建整个公司的大模型场景地图,这可以作为选择场景的池子。构建地图有三种方法,包括内部业务流程、对外的客户旅程以及按职能部门进行构建,但绝大部分企业通常会选择前两种方法。
3.3 大模型落地路径规划
上面是一张银行基于个人信贷业务构建的大模型场景地图,在构建这个地图的过程中,能够使整个企业的业务梳理得更加顺畅。我们之前提到业务流程可能会因技术变化而发生改变,这些变化需要在场景地图中体现出来,所以这个地图是一个原点和基础。
完成场景地图构建后,首先进行业务收益评估。业务收益有不同的评估方法,比如这是我们设计的一种方法。这种方法基本上是一个四象限分类法,横轴表示场景是服务内部还是服务外部,纵轴表示场景属于当前业务流程或价值的增强,还是属于价值革新,由此分为四个象限。不同象限的选择取决于企业在数字化战略中确定的业务目标和财务目标,这四个象限并没有核心的优劣之分,并非按照顺序排列,而是要根据每个企业自身的情况来确定。
例如,在产品价值创新方面,面向外部客户的智能助理,尤其是能够帮助客户进行产品推荐和业务办理时,就属于产品价值创新,包括海外正在尝试的对话式电商也属于此类。在业务流程重塑方面,更多的是由于大模型的存在,业务流程发生了很大变化。比如产品研发以及AI药物研发等,基本上都是对过去研发流程的重塑和变革。
在第三象限运营效率提升方面,更多的是诸如IT代码工具以及营销素材生成等,都属于提升运营效率的范畴。在第四象限客户体验提升方面,类似于客服等都在此范畴。企业可以将第一部分的场景地图对应到这四个象限中,看看哪个象限更契合自身的业务战略,从而进行落地。
评估完场景价值后,可以将剩下的高价值场景放入技术可行性评估表格中。这个表格的评估维度基本上是绝大部分企业都会关注的一些维度,我们也给出了一些权重,其中最核心的是准确性和数据与知识,这两个也是整个落地可行性评估中最核心的部分。
3.4 提升大模型准确性
我们可以举几个例子,这是我们在实际服务客户过程中抽象出来的一张流程图,也是绝大部分企业在做落地方案规划以及技术蓝图时核心会涉及的问题。
第一个问题就是准确性,以及安全问题,其中核心还是准确性问题。在准确性方面,我们按照这张流程图选择了四个核心的准确性点。
第一个准确性点是从知识抽取后得到的知识库,知识库基本上决定了50%以上的最终准确率。但知识库并非大家过去理解的文档,比如很多企业在做知识库项目时会问,过去大量的产品手册等文档是否是一个好的知识库。这里涉及两部分问题,第一,如果将产品手册作为知识库,其质量并不是特别高。原因在于如果知识库是这些产品手册,那么期望得到的回复内容很多时候是依托于产品手册,但产品手册对于大部分一线人员来说是正确的废话,最多只能服务一些初级人员。所以更有价值的知识库是企业过往积累的案例,案例比产品手册更高一个维度,有可能帮助到不是那么初级的一线员工,更具价值。
因此在知识库方面,首先,知识库中的案例质量对于企业用户来说具有更高的价值度。其次,知识库的构建方式也很重要,需要像进行数据治理一样,划分好主题域,就如同主数据管理以及确定实体和关系逻辑一样。知识库的建设有一套标准和方法,可以参考数据建设的标准和方法,而这套建立方式和方法基本上决定了知识库的最终准确率。因为在大部分问题的意图被理解后,首先至少要知道在哪个主题域中去寻找答案,而不是在一个完整的、全量的文档库中去寻找。所以,知识库本身的分类、整理和打标签等工作是另一个影响知识库质量的重点。
第二点是多路召回,现在这个概念被提及得比较多,包括关键词召回、向量召回,以及现在常提到的GraphRAG等,其实也是一种召回方式。多路召回是必须要做好的,而且实现起来难度不高。
第三点是相关性排序这个小算法。本质上,相关性排序是一个小模型,这个小模型的算法是影响准确性的关键因素之一。即前面通过多路召回拿回的关键结果如何进行排序,相关性如何确定,这是核心要点,会影响最终的准确率。为什么我们称之为端到端的链路优化呢?因为相关性排序这个小算法只是其中一个点,在整个链路过程中还会有很多其他类似算法的点,甚至包括提示词工程等。所以,在端到端的链路中,有很多细小的节点可以进行调整,这些调优也会影响最后回复的准确性。
最后一个是RLHF。很多时候准确率要寄希望于运营上线,实际上,在大部分项目上线一期时,准确率通常在80%左右。但在运营一段时间后,尤其是有反馈机制时,能够覆盖很多Corner case 和Bad case,此时准确率才能真正提升到85%甚至90%,这是准确率改善的最后一道防线,也是最有效的一道防线。
所以,这是我们在解决绝大部分企业用户关注的准确率问题时,实际落地需要考量的四个维度。当然,每个企业在自己的项目中,不同的维度点可能不太一样,需要进一步细化。但抽象出来看,基本上这四个点可以控制最后的准确性问题。
04
大模型推广
最后一个要讲的点是大模型的推广,部分企业尤其是央国企已经遇到了这个问题,我们也在一些国企中有了一些落地实践。但实际上,把大模型三个字去掉,做所有新技术项目的推广逻辑都是一样的。所以从方法角度上讲,与过去做数据技术、以及传统AI技术项目落地的逻辑和思路完全一致。
4.1 标杆项目推广方法
今天我主要讲述一下方法论和一个相关案例。在方法论方面,主要有以下四步。
第一,提高用户接受度。在做出一个标杆项目后,要提高终端用户对的渗透率,即提升他们对该项目的接受度。
第二,考虑如何进行复制。复制过程中,仅靠做标杆项目的这批人是无法实现的,比如在做标杆项目时,肯定有一套方案,其中涉及实施流程、对方业务部门如何参与以及实施过程中的方法论等。这与供应商服务企业一样,在企业内部进行复制和推广时,也需要有一套实施方法。
第三,构建大模型项目驾驶舱。企业内部有各种关于经营的驾驶舱,但似乎IT数字化本身没有驾驶舱。实际上,大模型也有驾驶舱,其中最核心的有三类指标:一类是业务收益,即当初设定的财务目标和业务目标是否实现;另一类是终端用户反馈,这与第一步中的用户接受度高度相关;还有一类是比较常用的如Dora等指标,用于衡量研发效率。
第四,塑造AI文化。基本上,我们围绕这四步,在拿到一个标杆项目后,就开始进行推广准备工作,甚至在标杆项目做之前就着手准备。
4.2 实践案例解读
下面讲一个案例。现在一些央国企已经建立了Agent平台,其出发点是为每个企业内部的员工配备个人Agent,有点类toC的感觉,但实际上是服务企业内部,希望企业内部能有更多创新,贡献出更多新的Agent供全员使用,甚至对外输出。
这家企业在搭建Agent平台的过程中有几个核心点。首先,需要有“雷锋”。这里的雷锋主要通过两种方式产生:
一是在前期大量的业务调研中筛选,因为雷锋不是培养出来的,而是筛选出来的,这个人天生喜欢新技术且是业务专家,才能够担当雷锋这个角色,所以在前期业务调研过程中筛选出这样的人;二是在后期的员工大赛中,尤其是央企通过红头文件组织的员工大赛中,也能筛选出一些有价值的雷锋。
在这个项目中,大概筛选出了几十个雷锋,他们进行了大量的培训分享工作,尤其是在雷锋所在的业务单元或部门中进行,这样整体效果会比较好,因为在自己熟悉的部门,大家都是熟人,讲起来感同身受,推广起来也更顺畅。最后,一定要有奖励机制,包括前期员工大赛的奖励机制以及HR部门设定的晋升奖励机制。在KPI中设置5%的权重给创新,而Agent等项目都属于创新的核心KPI点。
这个项目是推广得比较好的一个例子,目前在内部Agen商店里可以看到的组件已经超过100 个,使用过的员工也超过一半多,相比过去推广BI报表,这个方式速度更快、效果更好、使用效率更高。
以上就是今天想和大家分享的大模型在今年的一些落地进展,以及基于过去两年一些落地项目,而总结的2025年的AI大模型规划。
注:文/张扬,文章来源:爱分析ifenxi(公众号ID:ifenxicom),本文为作者独立观点,不代表亿邦动力立场。
文章来源:爱分析ifenxi