此次分享想和大家探讨的是如何将大型的图模型与大语言模型相结合,以怎样构建数据分析辅助系统Copilot。
在大语言模型尚未被广泛采纳的2019年,我们团队就已经开始研究并开发基于问答方式的数据分析产品。尽管当时我们应用的是稍小型的语言模型以及确定性语言模型,但我们更加关注的是数据分析的深度,而非仅仅是用户界面的交互。因此,我们始终坚持将图模型作为我们整体数据计算和储存的核心底层技术。
基于该背景,接下来我会从三个方面详细进行阐述:
第一,数据分析目前遇到了哪些困境,大语言模型可以为我们带来哪些机遇。
第二,图模型作为整个数据处理引擎和数据底层架构有哪些优势,为什么与大语言模型之间具有强大的互补性。
第三,与大家共享一些实践案例,以及聊聊对未来应用方向的探索和尝试。
01
数据分析困境与大模型的机遇
首先,我们需要在整体上理解数据分析。从最早的报表分析到自助式BI,再到现在的增强式BI,数据分析在企业内部扮演着至关重要的角色,它主要服务于企业或机构的整体决策流程。无论是企业内部数据还是外部数据,都需要利用数据进行决策。
然而,在实际的数据分析过程中,中国与美国、欧洲国家之间存在显著差异,在西方科技背景较浓厚的国家,他们的数据分析落地实践案例已经超出我们当前的水平多达5-10年,在数据分析科学素养和决策流程管理的整体使用覆盖率都远超过我们国内水平。
究其原因,主要是因为在国内的企业环境中,缺乏的是既熟知企业内部业务知识,又掌握数据结构且具备数据建模能力的人才,这实际上就是阻碍企业内部数据转变为应用或价值的一个颇为重要的瓶颈。在此基础上,我们的整个的业务团队,其能力实际上无法理解,或者只是了解一些技术术语,只能提供关于业务问题的基本描绘。
而技术团队其实大部分并未具备业务知识,同样也缺乏对业务整体需求的理解,他们需要与技术、业务团队反复沟通需求,不断地撰写程序,或者编写一些脚本、SQL,甚至源代码来调整数据模型。也就是说,我们目前缺乏一种能力,将商业逻辑和技术逻辑衔接起来,进而使得原本具备巨大价值的数据得以充分发挥其价值。
另一方面,企业内部拥有丰富的知识储备,这些并非如同自然语言一样可随意表达,甚至存在部分专属的独有设定。那么如何将企业内部的结构化知识进行推广,以便为大语言模型提供理解情境的能力?同时,未来或许将会出现类似于人脑思考的对话模式,原因何在呢?
实际上,在我们观察企业内部时,并非所有人都对业务问题都有所关注。许多人可能并未深入了解企业内部的业务运作,尽管他们在商业策略上颇有想法,但在业务专业化程度上却未必能达到相应的高度。因此,我们期待我们的系统能够具备像人一样的思考能力,能够为他们提供推理和联想的功能以解决问题。
如此一来,我们才能够真正实现所谓的对话式数据分析,而我们选择使用图模型的原因也在于洞察到了图架构在实际应用中的优势。
02
图模型的优势与互补性
2.1 大型图模型的优势
众所周知,图模型由节点与边构成,采用实体与关系的表述方式用于描述我们所接触的各种事物,这一处理方式突破了传统表格的表达局限,将点与边提升至第一级别,使得所有计算转变为基于图的游走式计算,这种方式相对来说计算与表达更为直接,更贴近人类自然语言的主谓宾定状表达方式。
因此,图模型在计算过程中利用空间来替换时间,从而避免了传统关系数据库中跨表校验分析缓慢以及模型固化的问题,保证了其即时性与灵活性,更满足了人机对话的需求。同时,图模型本身的语义对话表达效果较好,采用三元组的表示方式来表示一切多元异构数据,可以被视为一种语义化的数据编织。在此过程中,图模型还为企业内部的数据治理提出了一定标准,使得业务人员能够直接进行解读与访问。
事实上,当我们在构建特定场景或多个场景的全过程中,可以邀请业务人员参与其中,由于业务人员对整个建模过程有较深理解,采用语义知识图结构更便于理解,因此,这种知识结构可以自动生成知识内容进行推广,因为它本身就是一种贴近语义化的表达方式。
近来一些论文中其实有探讨采用这种图形结构来生成自然语言的Prompt,这种语义丰富的Prompt在我们能够精确地定位问题实体和路径时,便可以将更多的先验知识转移至接近当前问题的求解阶段,从而在大语言模型解答问题时,可以获得更丰富的知识储备,由此带来更好效果。
另一个重要的观点是,图形本身擅长表达概率。例如,贝叶斯网络和马尔可夫矩阵模型都是典型的图形结构,许多数据挖掘模型也可以通过图形来表示。当图形结构涵盖到神经网络中的GNN深度等,便可解决许多预测性问题,并呈现出语义上的可解释性,因而可以解答可能性问题。这使得在结构化数据上进行数据挖掘,以及回答可能性问题成为可能,而这正是大量其他数据模型所不具备的优势。
2.2 常见图模型解读
下面,我们简单分享一下我们常见的建模过程中涉及的一些图模型。
第一,知识图谱,这也是我们最常见的。知识图谱以静态的概念和关系来描述实体语义,它可以看作是一种属性图的表达式,我们企此内部大量的主数据都可以通过这种知识图谱进行表达。
第二,事件(行为)型网络结构。这是一种使用主谓宾结构来描述发生的事件的方式,它可以表达我们的许多事务性操作。我们常见的许多表结构实际上是知识图谱结构和事件行为网络结构的结合体,这两种结构的结合使得我们可以将许多表结构进行相应的映射。
第三,特殊类型网络,比如网络结构。这是一种原生的top图谱结构,例如数字的top网络,人的社交关系、投资关系、资金的交易关系,以及物理的拓扑网络,如服务器的网络,这些都是我们常见的原始网络结构。
第四,其他类型网络,如状态序列图和概率性网络。状态序列图是指每个状态随时间迁移而改变的网络,概率网络是指,像贝叶斯网络那样,其先验条件可以与后续知识以及后续结果之间产生一定的概率关系,这便构成了一个概率性网络。
我们常见的许多数据表达通常是多种网络的融合,从而构成了我们现在的建模方法。因此我们需要将传统的表结构抽象为图形结构,在此过程中,会涉及许多建模规范,如实体选择原则、 实体选择原则、 实体选择原则等各种关联性原则。
03
图模型的典型实践与应用模式
接下来会重点分享一些典型的实践及常见的应用模式,我选了在营销这个大领域下两个具有代表性的应用场景,分别是商品研究与用户研究。前者是研究商品应该如何进行设计,后者主要关注如何进行私域用户的运营,并进行用户画像的研究。
3.1 图模型基于商品研究场景下的应用
在先前的讨论中,我们明确提出要建立一个如上图所示的结构,实际上就是将我们传统在关联数据库的结构细化至最微小的颗粒度。以此方式,我们将从这些最微小的颗粒度中抽离出实体关系的实证模型,也许我们可以称之为恢复数据原始状态,所有的计算都是基于这样的一个最微小颗粒的数据实时进行。
因此,我们有一套工具根据上述设计原则,将表结构抽象成一个图形结构。例如,我们在此处所看到的图形结构实际上是对一个商品及其用户反馈需求反馈的一系列描述的知识结构。
在一些简单的问答式场景下,我们可以采取单次推进的模式,那么这个数据流的整个过程就是:首先用户会发出他的问题,它以类似自然语言的形式呈现,这个问题会回归到图结构中,我们会把其中的某些实体识别出来,然后依据现有的实体构成再结合能获取到的实体及其上下文包含的关系作为一个推进器抛给大模型。
接着,大模型会把相应的工作转化为一个路径,这意味着从我的起点、终点以及可能行驶的路线变为一个路径。随后,这个路径被丢给了图形、模型,由图模型进行计算,最终返回给相应的应用程序,最终完成了这样一个简单的交互逻辑。
在此过程中,我们可以将这个语言转换为类SQL的图形表达。我们还发现,扁平和边际结构的效率相对较高。同时,我们还进行了与宽表结构的对比测试,发现在识别的准确度分析的准确率方面,采用图形结构相对于宽表结构,识别精度和准确率可提高近20%,这主要是因为图形结构给予了更多的上下文信息,赋予了更大的语义空间。
3.2 图模型基于用户研究场景下的应用
显然,刚才我们所探讨的仅仅是一种简单的Prompt形式,然而,在其他实际应用环境中,例如私域用户的系列数据,包括其日常营销行为数据、业务主数据以及用户画像数据等,它们共同构成了一个庞大且繁杂的网络。
在面对大型且错综复杂的网络时,使用简单的Prompt或仅仅依赖于简单的回复来解决如此复杂的业务问题,通常需要经历非常多的环节。此类方式往往会产生大量漂移和无关信息,很难满足需求。
因此,我们采取了大语言模型与思维链处理模式相结合的解决方案,即在整个过程中采用多轮问答的形式,一步步地获取更精确的数据结果。首先,用户会提出问题,该问题将依据当前的提示模板交给大语言模型处理。在此过程中,大语言模型会将问题分解为多个子任务,分别调用相应的工具,这些工具将问题抽象成图表中的检索路径生成操作。而整个图模型还存储了企业内部的业务知识,能准确地反馈给大语言模型,然后进行下一步操作。
当然如果此过程中出现token过长的问题,我们也要设法解决。最终,模型会生成相应的分析结果,并结合我们的数据分析解析模板,生成可解释的内容。
在之前的案例中,经过测试,在剔除掉一些过于通用且过长的问题且token有效的情况下,我们可以获得超过77%的搜问答数据分析准确率,这已经是一个不错的结果。
3.3 典型应用落地场景
接下来让我们具体了解一下我们实际应用中一些产品的落地情况。
第一,实时提问,可视化呈现分析结果。在该应用场景下,整个形态是问答式,或者说是以搜索框为核心的界面,你可以提出想要了解的信息,例如将某一类用户画像与其购买商品的分布情况进行关联分析,系统即可实时生成针对该问题的可视化报告,同时也允许你用自然语言替代常见的数据库查询,来获取特定属性的用户列表,以快速实现信息的提取。
第二, 并行任务计算。在刚才提到的思维链条较为复杂的工作环境下,由于其链条长度较长,可能需要消耗较大的思考时间。此时,我们可以将该任务转化为并行计算的模式。例如,可以同时提出多个问题,系统在后台将对每个问题独立进行计算处理,待计算完毕后,直接将计算结果返回,实现并行操作。
第三,实现从自然语言到图路径。提问环节可以将问题转变为可视化的途径。虽然看上去不像自然语言一样自然流畅,但如果我们在其中加入一些主谓宾定状补等语法元素,或者说是辅助的谓词数据,那么它的表现就更贴近于人类自然语言了。这种表达方式可以帮助你在这上面进行相应的调整和修改,从而得出更为精确的答案。此外,分析结果页面还提供了自然语言的图表解释和解析,以便生成更为详细的分析报告。
第四, 定义指标的计算语义。至于指标的部分,它其实是一个非常重要且具有主观性的业务支持工具。然而,由于定义指标的方式多种多样,同一个指标可能会通过不同的语义计算方法和解释方式来定义。因此,在我们庞大的指标库中,甚至存在一些难以用自然语言清晰地进行描述的指标,它们往往是一种计算公式。但是在图结构中,这些指标可以非常直观地用面向对象的方式进行表示,采用路径的方式进行呈现,这样我们就可以轻松地为每一个指标赋予定义,实现直接的搜索功能。
在这个流程中,我们所指定的各类指标无需预先进行计算,仅需在提问环节提及该指标,通过路径的方式、语义路径的方式将其展现出来,并将其保存在欲命名的语义中。当需要使用该指标时,只需通过此前命名的语义将其提取出来,即可按照预先设定好的路径进行计算,无需额外的预计算和存储工作。
以上几个场景,都是充分利用了大语言模型的自然表达形式以及图模型的实时计算和灵活性,以满足我们在对话式数据分析场景下的需求。
3.4 图模型+大语言模型在对话式数据分析中的应用
而在对话式数据分析中,图模型主要适用于灵活性强且主题不明确的场景,具体包括五大类场景。
第一类是数据透明化。例如,为某个大型集团提供的供应链分析,由于供应链本身可能涉及多个业务部门,且每个业务部门的制造和生产环节可能拥有各自的供应链供应商,因此,在供应链环境中存在着巨大的风险,无论是采购环节还是物流环节都可能面临无法预料的波动。企业内部决策层需要全面掌握整体数据状况。传统的方法只能提供一些综合报表,这些报表无法显示原始数据,也无法准确判断数据的真实性。
但是,如果一旦采用数据问答的模式,高管们仅需进行简单的提问,便可从不同角度对供应链的健康状况进行验证或测试。在某些异常情况下,他们还能回溯所有数据源,查看最详细的明细数据如何被计算,从而获取全面的管理透明度。简言之,通过这种方式,我们可以利用数据进行有效的管理透明化。
第二类是灵活取数。对于一些大型公司而言,集团的数据往往由数据中台进行管理,因此,数据中台工作人员的能力往往成为数据决策的瓶颈。而一线团队,如子公司、事业部乃至门店,都有着自身独特的数据分析需求。面向一线员工,如何建立一套灵活自选的取数和数据分析平台,这也是对话式数据分析中的一个重要应用场景。
第三类是实时数据探索。这种情况主要适用于情报分析、公安监控以及监管等行业,他们需要在海量的数据中抽丝剥茧,寻找新的线索并据此进行后续决策。在此环节中,往往无法预知下一步的工作细节,因此必须通过逐步探究的方式一点点深入探索,因此对于实时数据实时建模的能力有着极高的要求。在这种情况下,使用图神经网络语言模型将是一种极为有效的解决方案。
第四类是策略性分析。这一类主要以营销类型的策略分析为主,由于营销领域的外部环境存在众多不确定性,如消费点位、媒体用户数量、文案内容等,同时营销折扣、优惠等也存在很多可能性。这些不确定因素需要根据用户反馈与实际营销过程作出调整,以实现整体优化。在整个调整过程中,需要持续地进行策略性调整,从而需要实时获取数据结果以便进行相应调整。
第五类是可解释的预测。这也是图神经网络最大的优势之一,即能将图模型与深度模型相结合进行推荐或预测,使分析结果具备语义解释性,便于后续执行人员理解和解释,进而提供更具说服力的决策依据。
以上就是本次基于大语言模型和图模型在对话数据分析应用场景下的结合与实践应用讲解。
注:文/数字化服务平台,文章来源:爱分析ifenxi(公众号ID:ifenxicom),本文为作者独立观点,不代表亿邦动力立场。
文章来源:爱分析ifenxi