【亿邦原创】在未来科技图景中,不管规模大小的企业,都会有一个大脑中枢指挥各项繁琐任务的拆解、分配、执行,反馈。
大模型给了企业大脑一个雏形,但真正想将企业的知识从每个员工的头脑中集合到企业知识库中,从静态数据变成动态知识,还需要跨越三道门槛:清洗信息源,挑选模型架构,搭建工作场景中的Agent、AIGC、GPT Store等应用,最后完成工作流的重构。
经过一年实践,目前的企业大脑发展到什么程度?解决了哪些问题?距离最终形态还有多远?
在智谱AI技术开放日,金山办公助理总裁田然基于金山办公30年企业服务经验和近一年对大模型的应用,提出金山办公对企业大脑及新时代企业知识管理的看法。
以下为田然演讲全文,经亿邦动力编辑整理。
我们经常会听到一些企业提到一个词“企业大脑”,所有人都想要一个企业大脑,那么真正的企业大脑距离我们还有多远?我分享一些金山办公的思考。
1、企业大脑如何落地?
提到企业大脑,大家经常提到各种各样的应用形态,比如知识库、工作流、数字员工、Agent、数字智能体等,但是这些应用真正到企业中落地使用时,差在什么地方?
企业的模型用得好不好,如果只看一个指标,那就是Token的消耗量。我们在客户走访时,聊到的第一个话题是,每天消耗的token数是多少,这能代表大模型真正对大家产生的价值大小。
在企业应用中,模型能力是大家提到非常多的,像智谱AI发布GLM-4,国内也各种模型厂商在快速迭代模型能力,解决的都是模型背后的基础架构问题。
还有一件很重要的事情是信息源。如果说模型是一种资产,这个资产里最重要的事情是其中要处理的数据。怎么从信息到应用,这中间一个巨大的鸿沟,这也是大模型应用必须跨越的鸿沟。
所以模型要企业里落地,要跨越的三个鸿沟是:第一,解决了信息源,第二,有一些好的模型架构,最后,再把它包装成一个企业场景中,变成真正符合企业这些用户的一个应用的形态。
其实到今天为止,我认为我们距离企业大脑的应用还很远。
2、三大鸿沟如何跨越?
那么怎么去跨越这些鸿沟?
从金山办公的角度,因为我们过去做了30多年文档产品和服务,我们理解什么是信息,但是当客户想要构建知识库时,我们发现企业不是知识不够,而是知识太多太繁杂了。企业会给我们各种各样的文档,甚至是一些API的接口。我们发现真正的问题是这些信息很庞杂,我们不知道怎么把原始信息准确carry。
用户可能会给我们500个问题,你必须把这500个问题清楚地回答,90%以上的正确率,模型能力甚至不是最欠缺的那一块板,信息源部分才是更大难题。
我们先看知识应用环节,譬如我们做一个工作流——我跟蒙牛的同事有过非常多的交流,蒙牛内部的牛魔王系统是一个非常完整的系统,有各种复杂工作流,可以看出蒙牛做了很多很扎实的工作,但这样子的应用不是无源之水,它都是从信息到知识的流动过程,最终才有应用形态。
第一道关,如何将企业里的信息变成知识?
企业的信息在所有人的电脑里,以图片、文档、PDF等格式存在,这些信息中也许90%以上的信息都是错的。文档是信息,但文档不是知识,信息和知识是有巨大的区别的。我们需要把里面10%的有价值的东西抽出来,变成知识。只有到了知识的时候才有可能被模型去应用。
从信息到知识,从知识到应用,以前的架构可能更侧重于后半部分,但现在的大模型,可能更多从信息加工领域去做。这是我们今天的一些理解。
再来看金山办公,金山办公是生产力软件的提供方。过去若干年,我们期望从一个软件提供方变成企业数字资产管理的服务方,所以模型真的要在企业落地,有一个概念我觉得提得非常好,叫做AI ready:一个企业是不是真正能够有资格迁移到大模型时代,迁移到AI时代,要看企业的数字资产是不是整理好,企业的数据是不是可以被加工成为模型、算法的燃料。
想要真正跨越所谓的AI鸿沟,进入AGI时代,对企业绝大多数CIO来讲,不是怎么使用好模型,而是怎么把企业里的数字资产,通过一个平台管理起来。
金山办公提供了一套相对完整的解决方案,从IM、邮件、会议到文档的产存管用——文档怎么去生产,员工文档怎么变成企业文档,员工在入转调离时,文档能够被追踪被管理,确保权限不会外泄。然后怎么从一个企业的基座的文档体系,变成一个企业的知识管理体系,最终再被应用起来。这是我们觉得第一层的问题。
有了管理以后,这些文档怎么被调动起来?微软其实在前面给了一个非常好的解决方案。
WPS也有一套WPS365API的API体系,帮助企业把内部文档,通过一个API的图的形式调用起来。比如我给Copilot一个指令说,把我近3周读过5分钟以上的文档中,跟AI相关的关键词抽出来,形成一个思维导图。这样的指令需要这样的一个graph(图表)来实现。
除了graph以外,我们再往上走一层,很多的时候这些信息是一些类似于一个图表,比如这张图,我们肉眼能读到这是一个2行6列的图,但是一个OCR技术,很容易把它变成一个4行7列的图,因为它没有语义这部分。
我们需要模型跟我们一起,把这些信息能够加工到知识体系,我们才能让后面的不管是知识管理应用,还是生成类应用,不是无源之水。
现在我知道智谱也在去在这方向去做一些发力多模态模型,能跟我们一起去完成从信息加工到知识的过程,我们期望能够探索去帮助企业把自己的数字资产的价值真正的利用好。
3、从知识到应用
最后一部分涉及数据内容生成的增强,我们有时候叫做知识管理增强,就是原始知识需要在企业场景下去做知识增强。
我听蒙牛的同仁说,蒙牛有很多关于牧业管理、养殖管理的知识,在知识库的角度上,可能较难从原始素材里把隐藏信息全部拿到,但这个过程恰恰是我们从原始信息到知识管理中必须跨越的东西。
要让大模型变成一个真正懂行的大模型,我必须要知道各个岗位上的这些人,他们在查询知识的时候,他的大脑的背后隐含的那些信息是什么?——我们去做一个金融类的知识管理应用,我们必须知道常见的这些财报报表、公司法相等信息,没有这些信息,后面知识应用无从谈起。
最后一步才是我们提得比较多的,知识库、AIGC、GPT store等这些智能应用,但整体来说,我们认为未来可能是一个以workflow为整体框架的综合应用。
因为到了企业场景中,workflow是一个综合体,我们可以认为agent是一个好的应用,但这些agent是作为工作流的一部分存在,它需要跟我们的AIGC结合起来,跟我们的智能体结合起来,跟我们的insight知识库结合起来,整体在企业的场景中按照企业的需求去把它搭成一个工作流,这个可能是未来知识应用的最后形态。
差不多就是这些内容,跟大家分享一下我们现在这个阶段对于企业大脑的理解,谢谢。
文章来源:亿邦动力