01
AI、数据、知识,三股热潮汇聚
1.1 AI、数据、知识在企业中的解读
本次分享主要围绕如何把大模型和知识管理融合在一起,在企业内部进行有效的落地。
我们首先需要关注的是,当下存在三个极为重要的关键词,AI、数据和知识。
首先是数据。数据已被视为一项宝贵的资产,今年的第一季度整体财务报表显示,已有21家上市企业在其财务报表中增设了数据资源项目,无疑数据会成为近年来数字化转型升级的核心。
其次是知识管理,无论是大型企业还是小型创新企业都需重视知识管理。一个组织的效能提升,包括组织的效率如何,成本能否得到有效控制,产品的质量能否得到全面掌控等,往往取决于企业在经营业务活动过程中所积累的经验,我们需要将这些经验标准化,形成知识,进而实现组织规模化业务的开展。因此,知识管理对于企业来说,是生存与发展的关键所在。
最后是AI技术,如今越来越多的企业,不仅包括国有企业,还包括私营企业,甚至是跨国企业,都已将AI技术作为组织内部的核心策略之一。他们可以通过AI实现数字化的转型,以提高企业的生产和经营活动效率。
在这之中,AI与数据的关联性也不容忽视。通过AI,我们可以对非结构化数据进行深入挖掘。众所周知,所有的大模型都是通过各种模态的非结构化数据构建而成的。因此,企业中的知识实际上是通过各种非结构化数据的凝练和汇聚形成的。
1.2 鸿翼公司介绍
接下来简要介绍一下鸿翼。鸿翼成立于2000年,专注在广义的电子文件或非结构化数据20余年。主营业务是和文件有关的各种平台及应用产品,包括网盘文档、非结构化数据管理平台、 AI数据管理平台等等。鸿翼产品体系的基础是我们的ECM库,也就是非结构化数据管理软件。它涉及到非结构化数据全环节的核心内容,经过多年的沉淀,最终形成了我们的技术ECM库。
在上层我们拥有三大平台,包括低代码平台、智能平台以及非结构化数据中台。基于这三大平台,我们有一系列的内容应用产品。以主要的应用场景和产品为例,包括文档的共享协作系统,为各种第三方应用系统提供统一存储管理平台。此外我们还关注非结构化数据的治理,如何与业务深度融合,实现知识管理。
近年来,我们在大模型应用平台上投入了大量的资源,并形成了一系列的产品。因此,鸿翼的AI能力实际上是一个双环端到端构建企业大模型应用的闭环,左侧主要是数据治理的体系平台和产品,右侧则更多地基于非结构化数据在企业内部实施大模型落地。
02
非结构化数据治理与AI数据处理
2.1 大模型数据分类
下面我们聊聊非结构化数据治理和AI数据处理这两方面的内容。
在任何企业内部,非结构化数据的比例高达80%甚至更高。我们每天都需要处理和接触各种类型的非结构化数据。对于企业而言,许多数据价值的挖掘实际上取决于我们能否有效地挖掘出它们。在当前的企业环境中,非结构化数据治理已经变得越来越重要,CIO们已经将非结构化数据的顶层规划视为数字化转型的关键之一。因为我们面临着一系列的问题,如连接、治理、服务能力、安全体系等,这些都是非结构化数据在不同方面的问题。
模型数据实际上可以分为三类,第一个是全训模型数据,其实就是知识库;第二类是RAG数据,即我们将一系列的知识文件转换为各种内容块;第三类是进行微调和精调时需要使用的更高质量的QA数据。
这三种数据我们通常称之为大模型数据,它实际上是通过我们的知识数据转化为模型数据。这里就引申出一个问题,知识数据来自哪里?知识数据意味着我们必须连接到前序的、非结构化数据的过程文档库,或是已与企业内部各式第三方应用系统相联系的,我们称之为非结构化数据管理平台。这样一来,我们整个企业的知识库才能在业务流程中得以持续而动态地汇聚。
只有这样,我们才能将海量且高质量的知识库数据传输至企业各个垂直领域、不同规模所需的庞大模型,提供符合需要的数据模型。所以,这实质上这是一种全域数据关系的整理。而在大模型数据治理中,也有几个关键因素。
2.2 大模型数据治理关键
我们首先来看的是非结构化数据全域的管理模型,要治理好数据很多时候需要有模型。同样的,知识管理就需要有知识管理的模型,知识形成之前无论是过程的文档还是体系的文档,那都要有内容模型。AI有模型数据,分类体系里边包括多少个库?每个库里边有多少个分类?标签体系、元数据体系等任何一个文件或者内容,它其实多维度的能通过不同的主视角的分类或者是其他纬度的,比如说标签体系或者元数据,把不同的文件或者知识通过不同的分类体系去组织在一起,这个在我看来是非常关键的。
另一方面,我们都知道知识就是随着企业业务不断向前运转且持续更新,而大模型经常会发生幻觉,原因是企业的事实或者内容的数据没有完整的被获取到,而这个需要要靠关联来解决,不管是标签的还是元数据的,还是内容结构的,或者网状的知识图谱的,最终要解决的还是数据的关联。综合来看要对大模型数据进行全面的治理,上述这些方面都要完整的考虑到。
最终整个大模型的实际的效果怎么样,除了需要依赖于有一个很好的知识库,百分之八九十可能都跟RAG管道工程化是不是全面、是不是足够有深度相关。因为大模型数据处理会涉及到很多的环节,包括文档分析、内容拆分、自动生成QA、数据化文档、图谱化等等,然后会进行关联的增强,再去做各种的意图识别,最后是Query的改写跟重排,而这些环节的复杂性和工程化的挑战也是非常高的。
2.3 文件内容化和内容数据化
接下来,让我们一起看看其中的关键环节,首先是文件的内容化处理。我们需要解析内容,并对其进行有效去除。此外,版面的分析也是至关重要的,因为如今的模式识别文档中,通常包含大量的图像和表格,且整体布局结构极其复杂,因此,我们必须深入研究文档的版面内容模态进行全面的分析。接着,我们将对内容进行拆分,包括标题、章节结构以及图像、表格等内容块。最后,我们需要对每个内容块进行QA萃取和自动化处理,这便是文件内容化的核心内容。
关于内容数据化,正如之前所提到的,我们需要借助大模型成熟的数据计算和关联能力。因此在内容数据化方面,我们可以利用不同的基础大模型或垂直小模型,以满足不同业务和类型的数据化需求。当然,这里的数据不仅包括单一数据,还包括表数据和图谱数据,我们将这些数据存放在相应的关系数据库或图谱上,并进行一系列的关联计算,这便是内容数据化的过程。
至于文档的图谱化,虽然它也属于数据化的范畴,但我们可以将其单独讨论。事实上,国内和国际上的知识图谱研究已经有近十年的历史,但在国内,其应用场景相对有限,这并非因为上层应用存在问题,是知识图谱构建成本过高,一般企业难以承受。现在基于基础大模型,通过一系列的微调,我们可以形成不同领域的专用图谱抽取模型,从而取得良好的效果。因此,文档图谱化作为一种可行的应用,其可行性正在逐渐增强。
接下来,我们探讨一下对文件进行内容化和数据化处理的具体价值。实际上,内容化的价值与数据化的价值是不同的,数据化的价值主要体现在增强内容管理、提高召回率以及降低大模型的幻觉发生率。
此外,在查询的改写与意图的识别方面,知识图谱能发挥其重要作用。传统上,知识图谱的应用场景十分广泛,如智能检索、智能推荐、智能审核等。文件内容化则是将大颗粒的文件拆分为较小的内容区块,主要运用于内容创作以及提升内容源的效率或进行合规检查。我们知道,颗粒度较小的标准有其优点,而颗粒度较大的标准也存在其不足之处。因此,文件内容化和文档数据化实际上是通过大模型技术的赋能,挖掘数据的整体价值,这与过去相比已经发生了巨大的变化。
接下来我们讲讲全域非结构化数据治理平台与增强型CORE输送高质量大模型数据。整个内容库包括体系的内容库、过程的内容库、知识库,甚至包括档案库,可以通过文件的内容化和内容的数据化,转变为模型数据,从而形成企业的各种垂直专有的大模型。
03
全链智能知识管理
知识管理已经成为组织当前数字化转型的关键,与组织的生存和发展密切相关。因为知识管理的难度非常大,涉及到人、组织、团队等多个方面,因此我们不能简单地认为拥有一个知识库、一堆知识文件,并使用一个大模型就能实现良好的落地效果。我可以很负责任地说,这几乎是不可能的,因为这之中会面对一系列各种组织、各种人、各种业务发展所带来的一系列的问题。而鸿翼带来的是各个行业中的全链条智能知识管理,其中涵盖了一系列知识管理的不同应用模块。
这其中包括了知识中心、知识库、知识的标签、知识的阅读等。在知识的重组和展示层面,我们有统一的搜索,有知识地图,它实际上也是一种从另一个视角、另一个维度对知识进行重组和组装。以及知识门户,案例中心,因为任何一个企业的业务最终都需要沉淀为精品案例,通过这些精品案例可以赋能整个企业的下一个同类业务。这在所有的行业实际上都是完全一致的,那么在知识的应用创新上,我们说如何将隐性知识转化为显性知识,在某些行业实际上也是必要的。
我们来说说学习中心,我们有如此众多的知识,如何将这些知识灌输到人们的脑海中,如何通过个人对知识的掌握让整个组织的知识得到全面的提升。我们需要通过自主学习,通过考试,通过我们学习的量化和学习成效的一个量化去推动和评估最终的结果。此外,还有专家库,在创作层面的易写等等,这些就是知识应用创新的一些知识管理应用模块。
04
大模型+知识管理相关应用产品落地介绍
接下来讲一下大模型应用的一些产品层面相关内容。
4.1 ECM文档云
我们在做知识管理的时候,有时候会使用知识库,有时候会使用文档与内容库,这个要根据企业原有的知识到底是文件知识,还是在线的wiki知识,以及和跟存量知识、增量知识等等不同的因素都是有关的。ECM文档云知识库可能是一个全库,也可能是某一个一级文件夹,或者二级文件夹,内容追溯可以根据当前选择的文件夹的内容库,对内容库里边的知识进行智能问答,我们可以在文档的产品里边直接可以定位到具体哪一页的哪个内容块。
4.2 AI搜索与音视频解析
AI搜索在企业内部正逐步产生深远影响,呈现出重大变革。以往那种仅仅依靠关键词的搜索已无法满足企业的需求,如今智能问答与传统检索紧密相连,使得企业内部用户能够迅速获得准确的答案,且其具备穿透多种信息并根据需求自主查询的能力。这种检索方法能便捷地解答用户的疑问。
现在展示的是一款在线轻文档,其功能与WPS AI相似,可直接对文档内容进行问题回复及插入操作。当然,产品中还包含许多企业原有的知识库,我们将这些知识库进行细粒度的内容化处理,用户只需搜索便可直接插入所需内容,两种功能兼具。
对于音视频的解析,如今企业中的视频文件数量日益增多,过去理解一个视频文件确实困难重重,需要从头至尾逐字观看。然而,如今情况已大为改观。此外,这是一种数据化处理方式,我们可以对不同的文件夹进行设置,针对不同类型的文件进行不同的数据化处理。一旦设定好策略,用户上传的文件便可直接进行数据化处理,最终数据将存储在源数据中。
4.3 Agent智能应用平台
接下来,我们讲讲Agent智能应用平台。它实际上是面向企业内部全体员工的AI共创平台。每位用户都可以通过语言记忆某个知识库,并创建与其业务相关的Agent智能体。此外,我们还将整个Agent组件化后,直接嵌入到我们的首页上。然后,我们构建了一个数据源,对其进行解析、切分、向量模型等策略的设置,我们可以连接到自己的知识库,也可以连接到整个内容库,两者之间可以无缝衔接。
我们所开发的Agent以及大规模知识管理系统,实际都在全力支持着大规模的知识库,其规模甚至可能达到数亿甚至数百亿的知识文件,而我们的整个平台都有能力提供支持。实际上,一家企业中的知识资源确实是极度丰富的,对所有文件进行内容块的提取和QA的整理,便是整个Agent的建立过程,涉及到了与之相关的模型配置、指令配置和插件的支持。
下面我们可以来探讨一下,智能问答和Agent之间的关系。对于从事文档制作或知识管理的工作而言,必然需要包含智能问答功能,因为它是网盘文档云知识管理,这是一种非常优秀的应用形式。那么,智能问答和Agent之间的关系,我们通过众多项目将这两者有机地结合在一起,即智能问答实际上是Agent智能体的一种简化,或者说是一种简单的Agent;而Agent相较于智能问答,实际上它是在工具插件、复杂推理、平台定位、AI共创等方面见长,这是智能问答所不具备的。我们也可以看到,有些专注于智能问答的公司,他们也会将智能问答扩展的行动工具、插件等的一些能力。
因此,这两者在我们进行顶层规划时是可以有机地结合在一起的。也就是说,我们构建规划一个Agent智能体应用平台时,可以先从基于文档库或知识库知识管理的智能文档开始,然后逐步增加各种不同业务类型的智能体。
4.4 典型企业大模型应用分层
根据我们今年实施的几十个大模型应用落地项目,在企业内部的大模型应用,主要涉及到以下几个与大模型相关的方面,像是智能问答,企业Agent,企业的AI搜,以及智能创作。在知识图谱方面,由于知识图谱具有双重属性,它既具有应用的特性,同时又具有我们所说的技术支撑的特性。此外,文内解读其实也是要完全依赖于大模型能力。
在上述能力之下,其实还有三层。
下面第一层便是AI数据管理平台,也可以称为RAG管道工程化。我们在讨论大模型时必定需要一个能处理大量数据的平台。该平台之下需要有知识库作为支撑,而且它并非简单的知识库,而是能够随着企业业务的动态变化而持续更新,并能够将不同的业务环节,也就是我们所说的企业的各个组织联系起来,这样企业的知识才能随着业务前进而不断更新,上层的大模型应用才能对我们的业务产生积极影响。因此,在知识管理之下的那一层,乃至更低层次的知识源自何处呢?毫无疑问,我们必须构建一个企业级的ECM非结构化数据管理平台,这三个平台实际上是紧密相连的。
4.5 大模型应用有效落地的四方面因素
最后,我们谈谈大模型应用有效落地的几个关键因素。
第一,必须尊重企业的事实。内容块的召回率和完整性是我们所有工作中最为关键的部分,想要整个大模型等幻觉变少,其中最为关键的是就是内容块召回事实的完整性。因此,需要有多个不同业务的知识库,以及强大的RAG管道,能够将各种内容块关联在一起。从我们实际项目的落地情况来看,许多项目在落地过程中,大模型的回复实际上需要包含一系列的内容,例如一些应用系统、应用单元,我们将这些称为对事实内容的扩展处理。
在实际落地过程中,如果仅仅是一个大模型生成的问答,往往在落地过程中面临巨大的挑战,但是如果关联了一系列的企业事实,包括应用单元、内容汇聚或者原始图片与文档,我们需要在前期进行各种处理,将这些处理后的事实内容单独存储,然后在回复时再将它们拼接融合在一起。
第二,非结构化数据平台是关键。我们主张建立起一个能够将企业各类应用系统及日常文本、办公文档等非结构化数据整合到一个统一平台的架构,从而能够形成企业知识的系统化转换,成为知识管理平台。
第三,AI数据管理要全面。企业要持续不断地向大模型提供各种完整、优质的数据支持,整个数据处理过程应具备高度的工程化和全面性。
第四,减轻大脑负担。对于复杂业务场景的应用,我们认为应当尽可能减少轮询次数,采取单轮策略,这是我们从大模型能力性能角度考虑后的强烈建议。在单轮回复中,我们可以包含丰富的企业事实应用单元或内容,以确保项目落地的有效性。
以上是在过去的两年中,鸿翼通过在多个AI项目方面取得的显著成果,所总结出四个大模型应用落地成功的关键因素。
注:文/罗永秀,文章来源:爱分析ifenxi(公众号ID:ifenxicom),本文为作者独立观点,不代表亿邦动力立场。
文章来源:爱分析ifenxi