一个大模型的知识库怎么建?
“从去年下半年开始,我们就开始搭建自己的大模型,基于LLAMA的架构。”一位国内制造业企业的CIO告诉产业家,“第一步就是搭建知识库。”
这家诞生于20世纪80年代的制造业企业,拥有近40年的精密制造经验。在过去的几十年里,该企业跨过信息化、互联网化,来到数字化、智能化时代。
为了更好地提升工作效率、支持技术发展、推动企业文化和组织结构的变革,在去年下半年,公司启动了基于“开源算法的AI系统”的新项目。
项目被迅速推进。
首先,几个知识库的方向被迅速敲定,其中包括生产环节,办公环节以及协作环节。其次,由公司组织,通过部门会议和讨论,收集员工在日常工作中经常遇到的高频问题;
此外,选择一些对新知识敏感、愿意接受新技术的员工,组成学习小组,进行初步的AI和知识库使用培训,并要求学习小组成员提出一定数量的问题,对这些问题进行分类;将收集到的问题和答案用于训练AI模型,以提高其回答问题的准确性。最终,将其部署在自己的服务器上。
这恰是一个完整的知识库搭建流程。
从更大的视角来看,在To B企业服务市场的浪潮中,如今大模型的落地应用正成为企业航船的强劲引擎。而知识库,作为这引擎的燃料,也正受到前所未有的关注。它不仅是辅助工具如Copilot和智能代理Agent的坚实后盾,更是全场景企业级大模型部署的核心力量。
在过去的一年时间里,不同的服务商,包括基座大模型厂商、软件服务商、云服务商、行业解决方案提供商以及第三方大模型开发平台,都在帮助企业构建知识库方面发挥着各自的作用。
比如,基座大模型厂商的做法是通过提供一站式企业级大模型平台,使得企业能够享受到从数据处理到模型训练、部署和运维的全流程服务;软件服务商的模式则是更倾向于提供垂直的解决方案,他们结合特定行业知识,帮助企业构建符合行业特性的知识库。
那么在当下的大模型时代,知识库到底发挥什么作用,它和大模型的关系到底是怎样的?以及知识库在大模型训练过程中到底发挥怎样的作用?
一
大模型时代,重新理解知识库
首先,一个精准的定义是,TO B企业的知识库,更可以看作是一个专业性极强的信息资源库,它与个人知识库相比,具有明显的系统性、规模性和保密性特点。
从构成内容来看,企业知识库通常包含大量专业性强、与企业运营紧密相关的数据,这些数据不仅包括文本信息,还可能涵盖图片、视频、音频和数据表格等多模态格式。这样的设计使得企业知识库能够支持企业的决策制定、流程优化和客户服务等多个方面。
其特殊性在于,企业知识库中的数据具有特定的业务含义,如客户信息、交易记录和库存状态等,这些对于企业的日常运营和长期战略规划都至关重要。
此外,企业知识库的数据还与内部流程和规则紧密相连,如生产流程和财务规则等,这要求企业知识库必须具备高度的集成性,以便与企业的其他系统如ERP和CRM等实现无缝集成。
这些从语料到连接到流程的特殊性,对应的也更是在大模型的落地过程中,企业知识库扮演着至关重要的角色。
具体来看,首先在训练初始环节,知识库的角色是为大模型提供丰富的训练数据,确保模型能够精准匹配企业的具体业务需求和场景。通过持续的反馈循环,知识库帮助模型不断自我优化,提升性能。
以市面上如今流行的RAG技术为例,大模型能够检索知识库中的相关信息,生成准确的回答或解决方案,并将这些输出反馈回知识库中,形成一个持续学习和改进的闭环,从而显著提升解决问题的效率和准确性。
例如Google的DeepMind Health项目通过整合多模态数据,提高了疾病诊断的准确性,在识别视网膜病变方面提高了诊断准确率;Salesforce的数据显示,通过知识库微调的AI模型在销售预测方面的准确率提高了约30%。
甚至可以说,企业知识库的建设和应用直接影响大模型在企业内部的使用效果。它不仅提高了模型的效率和准确性,还增强了用户对模型输出的信任和满意度。同时,企业还可以通过知识库来控制数据的访问和使用,确保数据安全和合规性。
根据IBM的年度报告,其知识库帮助减少了约20%的内部查询响应时间,同时提高了数据安全性;根据亚马逊的业务报告,通过知识库的应用,库存周转率提高了约15%,客户满意度提升了10%。
最后,更可以看做,随着企业对数字化转型的需求日益增长,企业知识库与大模型的结合也更将成为企业获取竞争优势的重要工具。
在德勤的一项分析中,那些有效利用知识库的企业,其年增长率平均比行业平均水平高出15%。
可以说,知识库的最核心价值呈现恰是其在为模型提供了微调数据之外,还确保模型能够真正适应企业的特定需求,提高其在企业内部的有效性。
二
谁在构建知识库?
尽管市场上众多企业提供了基于大型模型的知识库服务,但构建这样的系统并非轻而易举的任务。
例如,根据《企业知识管理调查报告》显示,超过60%的企业在尝试集成AI助手时遇到了技术障碍。
正如文章开头所述的案例,企业在搭建知识库的过程中,需要将AI助手与现有的多种软件和系统进行集成。这要求企业拥有大量且细致的数据集来训练AI模型,这在企业初期是一个巨大的挑战——确保AI助手提供的答案准确无误,尤其是在制造业这样对错误容忍度极低的行业中。福特汽车公司在集成AI系统时,就曾面临数据精确度不足的问题,导致初期模型的准确率仅为70%。
在数据层面,企业需要选择不同的数据处理工具,如Apache Spark、Hadoop,标注软件如LabelImg,内容管理系统(CMS)如WordPress、Drupal,以及企业搜索解决方案如Elasticsearch、Apache Solr,都是构建知识库的利器。
据Gartner的报告指出,市场上排名前五的数据处理工具在数据清洗效率上的差异可达到30%以上。
此外,知识库的用户界面设计对员工的使用体验和效率有着直接影响;同时,工具与企业现有系统和工作流程的集成性也是至关重要的。IBM的Watson平台在与企业系统集成时,就提供了超过200种预集成选项,显著提高了集成效率。
面对这些挑战,一些基础模型供应商和软件服务提供商正在帮助企业构建知识库。比如百度的“昆仑芯+飞桨平台+文心大模型”布局,以及华为的“昇腾芯片+MindSpore框架+盘古大模型”等,都是从更系统的层面保障企业大模型部署的成功。
此外,像滴普科技这样的软件厂商,也不断提供垂直的解决方案,其客户满意度调查显示,使用滴普科技基于数据库等数据细颗粒度的解决方案的企业,其知识库构建成功率可以提高40%。
然而,工具本身并非万能。企业要成功搭建自己的知识库,还需要克服内部组织结构、业务流程和员工接受度等难点。高层的支持和明确的战略规划对于项目的成功至关重要。根据麦肯锡的一项研究,有高层支持的企业知识库项目成功率比没有支持的高出50%。
在搭建知识库的过程中,IT部门或知识管理部门通常是牵头者,负责架构设计和技术选型。而业务部门则需要提供内容支持,确保知识库的信息准确、及时。
例如,产品开发部门提供最新的产品信息,客户服务部门贡献常见问题解答,人力资源部门提供员工培训材料。这就像一场交响乐,每个部门都是不可或缺的乐手,共同奏出和谐的乐章。一项针对500家企业的调查发现,那些拥有健全知识库的企业,其产品开发周期平均缩短了20%。
此外,企业还应该培养员工的知识共享文化,鼓励他们将经验和教训贡献给知识库,形成持续的知识积累和更新。根据哈佛商业评论的研究,拥有强大知识共享文化的公司,其创新速度比行业平均水平快30%。
总之,企业知识库的建设是一项系统化的工程,它要求企业从战略层面进行规划,技术层面进行实施,文化层面进行推动。只有当知识库真正是以企业知识宝库的形式存在,才能真正从大模型的价值层面进行赋能加持。
三
知识库背后:大模型的落地成色
再回到文章最开始那个问题:知识库于大模型而言,意味着什么?
首先,从表层来看,知识库为模型提供了训练所需的海量数据和信息资源。谷歌的BERT模型之所以在语言理解任务上取得显著进展,是因为它训练时使用了包含超过3000本未版权书籍和2400万网页的庞大知识库。这样的数据丰富性确保了模型能够学习到广泛的语言模式和知识。
知识库中的信息多样性也是大模型落地的关键。IBM的Watson在医疗领域应用时,依赖于包含超过200万页医学文献、图像和病例报告的多模态知识库,这使得Watson能够处理复杂的医疗咨询和诊断任务。
此外,从模型的特定性来看,知识库中的信息准确性对于大模型的决策支持至关重要。例如,金融机构在使用大模型进行风险评估时,依赖于准确无误的金融数据知识库,这些数据往往来源于经过严格审核的金融报告和市场分析。
知识库,正在成为大模型落地的基础。
目前做得好的知识库不仅仅是静态的信息集合,而是动态、互动的平台。它不仅仅是信息的存储和分类,更是知识发现和创新的催化剂。当前做得好的知识库,已经超越了传统的文档管理和搜索功能,它们通过集成先进的搜索算法、自然语言处理技术,甚至将机器学习模型(如prompt)嵌入其中,实现了知识的自动更新和智能化推荐。
例如,亚马逊的A3知识库存储了超过5亿个产品信息,并通过机器学习算法不断优化产品推荐,提高了用户体验和销售效率。这些知识库通常具备高度集成、用户友好、智能化、个性化和持续学习的特点。
未来,知识库的搭建方式将更加智能化和自动化。例如,自动内容聚合工具如Import.io能够从互联网上自动收集和整理信息,而机器学习平台如Google's TensorFlow则能够处理和分析这些数据。知识库的作用将不仅限于提供数据支持,它将成为企业决策的智能助手,通过分析大量数据提供洞察和建议。
在大模型落地中,知识库的更新和进化模式将变得更加动态。例如,OpenAI的模型能够根据用户的反馈和行为自动调整其生成的文本,以适应不断变化的需求和环境。这种自我优化的能力将使知识库成为大模型持续进化的重要驱动力。
随着技术的进步,知识库将变得更加智能、互动和自适应,为企业提供更加强大和灵活的知识管理能力。据Gartner预测,到2025年,超过30%的大型企业将拥有自己定制的人工智能知识库,这将极大地推动企业智能化的发展。
在人工智能的浪潮中,知识库已然不仅是数据的简单集合,它已成为企业智能化转型的核心竞争力。
文章来源:产业家