从540亿元到1286亿元——这是中国通信标准化协会大数据技术标准推进委员会在2023年做出的一份预测报告。报告指出,未来五年,中国数据库行业在未来五年会从一个百亿级市场跨越成为千亿级市场。
从数据库行业的过往经历来看,全球数据库的发展共经历过两次热潮。80年代,关系型数据库的理论突破和技术创新是全球数据库行业迎来的第一波热潮;紧接着,步入21世纪后,从PC互联网到移动互联网的发展,则又衍生出更多的数据库应用场景。
而当时间快进到最近两年,中国的数据库行业似乎也在迎来一轮新热潮。
在新的数字经济环境之下,企业数字化按下加速键的同时,线下线上的边界被进一步稀释。从线上购物到线上会议,再到线上营销活动等等,新的变化不仅衍生出了如Zoom、腾讯会议等线上场景的“现象级应用”,也诞生出更多的数据分析场景。
站在时代发展的角度,这种新变化是伴随着5G、云计算、大数据和AI等多种技术共同出现的。在IDC的预测中,“到2025年,全球近30%的数据需要被实时处理。”而这也正是OLAP分析型数据库近年来快速增长的客观原因。
而另一组数字则是,预计到2024年,中国分析型数据库的市场规模将达到521亿元人民币,复合增长率为27.8%。
“OLTP已不能满足终端用户对数据库查询分析的需要”。1993年OLAP刚被提出之时,提出者“关系数据库之父”埃德加·科德就阐明过这样的观点。
一个更通俗易懂的理解是,OLTP用于处理基本日常的事务处理;而OLAP则支持处理复杂的分析决策操作,查询结果也更为直观。在企业数字化加速到来的同时,OLAP分析型数据库的需求也被越发放到台前。
镜舟,正是这条赛道的参与者之一。
在过去的几年时间里,镜舟和其“实时数仓”等产品愈发频繁地出现在数据库主流市场视野内,也成为了一众企业在数据库侧的首选。
就当下而言,数据库应该如何选择?伴随着企业对于数据即时性越发高要求的需求出现,中国企业到底需要怎样的数据库?
一
数据爆炸的十字路口,迎接变化
“从线下到线上,不仅导致了数据量级的变化,在企业内部,数据使用习惯也在发生变化。”镜舟科技客户成功负责人孟庆欢告诉产业家。在如今时代洪流的冲击下,一个客观事实是,数字经济时代所带来全新的商业驱动模式,正在倒逼企业加速完成数字化转型升级。
以金融行业为例,在个人小额信贷场景下,一个在2024年已经不再发生的现象是,客户亲自去线下的银行网点,填写申请表,再等待银行完成征信信息对比,最后才能收到由银行经过多重审核后发放的消费贷额度。
如今的情况是,打开网银APP,填写完基本资料后点击申请,不到一分钟就可以收到来自银行的贷款额度发放。
从线下银行网点到线上网银APP,过去几天才能完成的事情,如今已经缩短到几分钟,甚至几秒钟。但与之相对应的变化则是,在线上金融场景中,数据量级正在从之前的“天”级别变为“秒”级别,时效性得到大幅提升的同时,对数据库的要求也在提升。
同样的情况也出现在零售等行业。
一个零售行业里的共识,线上销售渠道的布设是必行之路,其意味“信息差被网络填平,数量差被快递填平”。然而,这种布局意味着也同样意味着零售业要面临多种线上渠道的涌入,比如淘宝京东拼多多、微信抖音视频号等等。
这种渠道的分散化所带来的是数据的繁杂多元。从真实情况来看,如果说过去企业的习惯是查看一个月的销售额,以及各个渠道的售卖情况,以此对商品进行判断,再做出新的销售决策。然而,在多种线上渠道涌入的背景下,如今数据分析的触角则来自四面八方,时间更是会横跨多个时间纬度。
而在这个背景下,除了固有的数据数量之外,还有一个最难被攻克的环节:“用户画像分析”。实际上,这个“明星词汇”近年来已经被金融、零售、游戏和汽车等行业中口耳相传。
以百草味为例,在双十一、双十二等大型活动期间,企业需要将优惠券、红包或者抽奖等促销放置在不同时间点灵活发放,以达到最好的促销效果。
但对于商家来说,如何找到准确的时间、精准的用户群进行发放,其需要依托于渠道产生的实时数据指标,来进行用户画像分析。
这不是一件容易的事情。在一个企业内部,一个用户基于不同的渠道往往可能拥有上百甚至上千个标签,而在线上渠道接入后,标签的量级更是被无限放大。因此,如果想要面向用户进行足够精准的营销推荐,其对底层数据库就有极大的要求,不仅需要处理大批量的数据,更要满足时效性、实时性。
实际上,在如今快速变化的大环境下,不论是金融场景下的高数据要求,还是零售等场景中的类似用户画像分析的需求,都是如今企业内部对数据库新要求的一个缩影。
那么最好的选项在哪里?
二
数据库里的「镜舟样本」:速度与稳定
2022年,镜舟科技面向金融行业发布了数据库解决方案。
作为数字化转型的代表,金融企业开始从“外需”向“内求”转变,通过降本增效的方式来提升自身盈利能力。同时,在数字化建设方面,金融企业受互联网影响,越来越偏向电商和零售化,利用企业背后积攒的大数据做驱动成为业务发展的必需。这使得金融企业不得不做到“既要又要”——既要稳定,又要速度。
以证券企业的用户经营平台为例,其需要收集和整合大量来自不同来源的数据,例如用户画像、用户行为等数据,为业务运营人员提供快速的自助分析能力。这种能力使得证券在财富营销、资产管理等场景下能够更好地理解和满足其用户的需求,从而提升用户满意度和忠诚度。
另外,银行内部员工的绩效分析平台也需要数据的驱动。绩效业务明细数据、指标、考核方案均需要 T+0 的分析时效,来让管理层及业务员工实时查询经营数据并进行分析,了解存贷款、理财等一系列业绩完成情况,同时也要支撑绩效情况按不同颗粒度进行同比、环比复盘,赋能企业的经营管理。
这不是一件容易的事情,其背后考验的是数据库的查询性能,对数据量和实时性的要求十分高。
镜舟给出的解题思路是“向量化引擎+CBO查询优化器+智能索引”——从数据存储、到数据加工计算再到数据查询,进行全方位的极速再造。
可以理解为,基于“向量化引擎+CBO查询优化器+智能索引”三者的叠加,企业可以更好地归拢和整理内部的数据,不论是通过向量搜索还是智能索引,都可以加速对数据的筛查和分析,进而加速对数据的调用和处理,尽快反馈到前端。
这正是镜舟的优势之一。但从更大的视角来看,镜舟对企业的价值还不仅于此,其更为被市场认可的是其“实时数仓”解决方案。
实时数仓是在从事后延伸至事前事中的背景下应运而生的能力,相当于从T+1的模式升级为T+0的模式。
传统的实时数仓需要依赖许多外部组件来搭建,体系搭建相对分散、难调度,镜舟的做法是则在此基础上添加了新的All in One模式,即数据的接入、处理和分析都在一个相对独立的体系里完成,保证整个体系的独立性。同时,为了更好地强化上次的数仓能力,镜舟在底层还专项构建了湖仓一体的能力,使数据使用模式和接入方式更加统一。
实际上,这也恰是如今镜舟“连接大数据与价值”slogan所对应的布局。
在这种强产品力背后,外界对镜舟的认可也更在企业成长层面——即开源社区与商业化主体形成的“双擎驱动”。
镜舟科技CEO孙文现告诉产业家,在百度做统计系统福尔摩斯的时候,后台使用的是MySQL。当时几乎每周都要进行一次大规模数据恢复,否则第二天数据就丢了。“有一次跑批任务要凌晨三点之前把所有数据全部跑出来,否则数据丢失就会让客户看不到后台效果,引起投诉。”他表示。
后来孙文现和团队共同设计了百度的第一个OLAP。而StarRocks开源产品,即新技术架构下的OLAP,也正是诞生于孙文现在百度的这段“反恐24小时”的经历。一个关于StarRocks的时间线是,2020年5月,StarRocks产品正式问世;2022年,StarRocks正式捐献给了Linux基金会。
简单来说,镜舟的数据库产品脱胎于StarRocks开源社区,但又不止于StarRocks。两者的关系是相互促进、相互成就。
能看到的是,在如今StarRocks开源社区内部,不仅有镜舟,也更有阿里云、携程、腾讯、小红书等重要参与方和贡献者。实际上,由于开源社区的用户量极大,其迭代速度也十分快。对此,孟庆欢告诉产业家,“迭代节奏平均来看是,两周一个小版本,一个月一个大版本。”
而对于镜舟商业化主体,为了保证其稳定性,其商业化版本则是在StarRocks已经成熟的版本上进行迭代升级,构建出更适配企业服务市场的产品和方案。
镜舟提出的湖仓一体新架构也来源于StarRocks,并在此基础上添加了灾备管理能力和数据权限管理能力,来保证企业用户在数据系统运行中的数据安全和资产管理保障。再比如用户画像分析的需求,则也是镜舟依托于StarRocks的大量用户基础,总结出的用户痛点,并凝结出更为具体的解决方案,帮企业解决痛点。
此外,镜舟基于StarRocks开源产品所做出更进一步不仅在产品,也更在对具体的场景和需求服务能力侧。
第一点改造是效率上的提升。这涉及到了开源产品与商业化产品的本质区别,前者更注重性能和功能层面的基本能力,比如实时数仓和查询性能;而后者则更强调企业的降本增效。
对此,镜舟推出了可视化开发运维平台,帮助用户完成产品监控、运维升降机、告警监控管理及集群健康状态巡检等等。将这些功能做成可视化的界面,这是对于客户来说更能够降本增效的功能。
第二点改造则是针对数据安全方面。对于集团型企业而言,其业务线较多,数据的使用模式也更为复杂。所以,镜舟在数据安全层面给出的解题思路则是,对于数据权限的管控。比如A部门的数据,B部门与C部门不能查询。这种数据加密维度的特殊需求则需要企业版来补齐。
另外,开源社区为镜舟所提供的大量用户基础,其附加价值除了行业Know-how,也更有生态的价值。
对于一家数据库企业而言,它所需要打通的是纷繁复杂的上下游系统。而开源社区所能带来的好处则是,通过开源的开放性,与开源社区里用户相关联的上下游企业,都更有可能发展成镜舟生态圈里的企业。
以BI为例,帆软、SmartBI、永洪BI,以及银行和零售行业经常使用的观远BI都已经成为了镜舟生态里的合作伙伴。作为一家商业化的数据库公司,在新的环境下,镜舟正在凭借开源社区的积累和商业化改造,为数据库行业提供一个新样本。
三
数据资产入表,和大模型的下一步
在2023年度十大科技名词中,大模型位居榜首,数据要素也名列前三。而在种种新的技术变革之下,数据库行业是否将迎来新的拐点?
首先是火热了一年的大模型,今年以来,AI Agent和AIGC等技术都是上层应用赛道里的关键词;而底层技术的变革总是要来得相对慢一些。在数据库行业,一个可预见性的趋势是AI+BI+DI。
实际上,更准确的说,这种趋势并非出现在大模型时代,在更早之前它就是数据库行业里的一个畅想。但由于技术不够成熟,导致这种畅想并未实现。
具体而言,在AI、BI与DI三者的结合中,AI的这部分能力由大模型厂商来提供相应的能力;数据库厂商提供的能力则在底层的数据处理分析上。其中,DI相当于一个接受数据加工请求的平台;BI则是将这些数据分析结果用可视化的方式呈现出来。
只是在大模型时代,AI可以更好地理解用户意图,再基于底层强大的数据计算加工能力,即可实现更加丝滑、低成本的数据分析体验,将底层数据库的加工和分析结果在BI上呈现出来。
在镜舟的观察中,这种趋势现如今已经可以成为现实,并计划在未来一年内落地。实际上,这种模式的落地不仅是站在AI大模型新时代的风口之下,也更是在市场的期盼之下。
然而,也正是在AI+BI+DI模式的驱动下,数据库行业将更加重视公有云模式。一方面是考虑到成本因素,另一方面则是数据使用模式的灵活度。
在大模型时代,公有云模式已经被各大云厂提升到重要的战略地位。而在数据库企业,公有云模式也将成为一种新的趋势。一个较为客观的观察是,在全球数据库市场中,云数据库的市场份额近两年也得到了大幅提升。不仅如此,近两年的云数据库占比已经超过本地部署的数据库。
此外,在2023年度的科技关键词中,数据要素也将在数据库行业发挥更重要的角色。不仅如此,随着2024年数据资产的入表,也更将催化数据库行业走向新的发展高度。
在国家数据局发布“数据要素X”行动方案中明确提出推动将满足资产确认条件的数据资源,计入资产负债表无形资产或存货,推动数据资产化。而相关部门发布的规定也将于2024年1月1日正式施行。
在镜舟科技客户成功负责人孟庆欢看来,“数据资产入表是行业内的一个里程碑事件。未来,企业会越来越重视数据层面、资产层面的建设。过去粗放式的数据使用模式,在外部更强的监管要求下,也会朝着精细化的模式进行升级。相对应的,数据建设和治理在企业内部会变得更加合理。”
更具体地来看,数据资产在企业内部相当于一个“底座”的作用。而之所以数据资产被提到了一个更重要的位置,一部分原因也是希望充分发挥数据共享机制带来的红利。
而在整个数据共享机制的构建中,一个最常见的问题是数据孤岛的存在。
这也正是前文所说,由于企业内部为了解决多个问题所构建的多个技术栈,而在不同组件下产生的数据割裂现象。一旦数据割裂的现象出现,整个数据共享的机制也就被破坏了。
对此,镜舟所采取的湖仓一体新架构则也正是用于解决数据割裂的问题。具体来讲,数据湖的能力可以将用户的数据底座统一起来,比如将A、B、C三个部门的数据统一起来,从而达到数据共享的效果。
而在湖仓一体技术架构基础上,数据也可以以各种格式存在于数据湖里,通过湖仓一体的分析来支撑企业对于数据使用的不同诉求,进而更有质量地构建自身的数据资产。
站在今天的十字路口,国内数据库行业已然呈现出新的拐点。而在各种新趋势和新技术的到来,镜舟也正在基于自己开源社区加商业化闭环,共同加速数据库行业的发展和规范。
文章来源:产业家