“错进,错出。”这是美国税务局在1963年对数据质量提出的解释,以此来试图表达数据对于计算机处理结果质量的重要性。
这一观点的源头来自“计算机之父”查尔斯·巴贝奇。
在巴贝奇的随笔文集上记录过这样一件事,他曾因有人认为输入错误数据下的计算机仍然给出正确答案而感到惊愕。而他发现,数据繁琐数量多,即使经过多道人工审核仍存在很多错误。上世纪八十年代,巴贝奇研制出无需任何人力计算便可以自主完成三组十万以内加法的“差分机”,用来解决输入数据错误的问题。
资料显示,如今,我国数据产量占全球数据23%左右,在全球数据量中占比颇大。由于数据能够对计算结果产生直接影响,一直以来被当作极为重要的环节。因此,在互联网及云计算发展下,数据处理、数据复用等问题又一次被推上风口。
而商业智能也在帮助企业现有数据进行整合的基础上,承担下可视化这一环节,辅助企业进行业务经营决策。这也随机带来问题:
我国商业智能如今发展现状如何?
当下市场,在数据处理及复用上实际难点有哪些,如何解决?
数据处理概念越来越宽泛,在云大物智赋能下,产业数据治理未来发展趋势是怎样的?
商业智能等于BI吗?
可以说,数据价值最大化体现在商业。
以往,我国商业数据市场从早期数字化改造向互联网爆发后的基础软件普及迈进。2013-2015年间,报表式可视化功能涌现,成为商业数据智能的前身。在历经两年高速成长,目前市面上被广泛获知的狭义“商业数据智能”或可视化应用逐渐迈入成熟阶段。
在人工智能技术的不断演进下,AI得以与许多工具、技术结合。而数据可视化实用性最强的是BI(商业智能),在人工智能技术的加持下,商业智能对传统数据分析进行持续化、信息化建设,形成1+1>2的表象。
据艾瑞咨询估算,2019年至2025年中国人工智能核心产业及带动产业规模都将保持高速增长态势,复合增速均超过20%。
数字经济的蓬勃发展带来商业数据智能再次增速。
从整体来看,商业数据智能工具可以分为三个阶段,即数据化、全局可视化及分析智能化。
具体来看,在第一阶段数据化转化期间,尚未进行数字化转型的企业将数据进行电子化处理,通过CRM、ERP等基础软件为企业提供出部分赋能。
当全局可视化阶段时,企业已经拥有数据库或本地数据文件作为基础。这时要做的是将数据进行提炼整理,形成数据报表。可视化工具能够为企业提供数据分析及报表产出效率,增加数据实用性及数据价值。
实现数据可视化后,企业便可以利用AI开发框架进行模型训练,进行数据挖掘,通过数据分析培养自身IT能力,最终体现在上层的BI产品上。
简单来说,这个过程就好比一家餐饮店利用数字化终端设备将消费者的消费时间、喜好、产品一一收集。继而对这些数据进行整理,将有用的数据以通俗易懂的方式呈现出来。通过这些的数据可以清晰地了解消费者的年龄层次、哪款产品喜爱度最高。而通过这些数据反馈出来的信息,不断优化菜品、升级营销方式,从而帮助企业实现更高的增长。
目前,由于我国企业中小型占比较多,数字化转型程度弱,大部分企业集中在数据化转化及可视化赋能区间。
所以总体来看,我国距离数字化成熟尚有一段距离,而商业数据智能往往需要建设在统计格式及企业数据技术上,因此,前期的数字化转化环节就显得尤为关键。
此外,数据不够“干净”,数据存量小,数据平台性能不足,处理效率低也是企业在数据处理时遇到的糟心事。在进行数据分析、挖掘及机器学习或可视化前,数据清洗、数据储存也直接决定后续结果呈现。
数据处理的命门
“中国没有真正的医疗大数据”“没有数据可用”,一位行业专家在谈临床时抱怨。
然而,据IDC发布的《数字宇宙驱动医疗行业数据增长》报告显示,医疗行业数据量每年以48%的速度增长,很多大型医院的数据积累已达PB级。
一边是一线从业人员的无奈,一边是爆发的医疗大数据,两者之间似乎有着一条巨大的鸿沟。
事实上,并不是任何一堆数字都具备价值,一个前提是可视化,即让这些被计算机收集的信息变得“通俗易懂”。
由于可视化所需数据基础需要存储等功能作为支撑。在可视化阶段,需要以数据文件作为基础,经过数据倒入、清理、建模、图形构建等环节对企业数据进行提炼,从而呈现出完整报表。
然而,这并不是一件易事。
具体来看,这些收集的医疗大数据,有文本数据、影像数据等。不同于可以直接存储为数据库的结构化数据,这类数据计算机难以执行。
另外,由于医院上线的信息系统缺乏统一的标准与接口,随着技术变迁和系统迭代,同厂商的系统数据结构不相同,不同厂商、不同时期的数据编码也不尽相同,医院存储的历史数据面临解读问题。
再有就是,很多大数据平台只解决了有限数据汇集,比如,数据中心只采集到电子病历系统的数据,或是集成平台的数据,大量体检数据、互联网问诊记录、外院历史病历数据无法获取。数据不全、量级也不够大,并没有建立起真正以患者为中心的全生命周期数据。
种种因素,让数据的可视化陷入死胡同,继而让数据的价值无法体现。
毋庸置疑的是,“解铃还须系铃人”,想要体现数据真正的价值,首先要解决企业在数据处理能力上的匮乏。只有这样,数据才能实现价值最大化。
正如亚马逊CTO Werner Vogels所言:“数据越大,结果越好。为什么企业在商业上不断犯错?那是因为没有足够数据对运营决策提供支持。”
作为数据处理中典型的案例,亚马逊从用户购买行为、页面停留时间、评论查看市场、浏览商品区间中对用户购物习惯进行分析处理,不断挖掘出的数据价值早已超越其运营模式的收益。
在亚马逊的眼中,自身所有业务环节都离不开“数据驱动”,通过需求预测可以得知用户未来需求。而这成功的尝试也让不少企业心之驰往。然而,能够做到那一步可不是部署几个软件就能解决的。
《Information Visualization》一书中,Colin Ware提出了这样一个问题:可视化是一门科学还是一种语言?结果显而易见,它属于科学范畴,让数据跳出繁杂,精确性、系统性的显示出来。
事实上,在很多新应用中,数据可视化都被当作帮助用户便捷操作数据的桥梁,例如RPA等。从深度考虑,可视化可以称作数字化进程中的一个阶段和能力,带来数字化大趋势下可持续发展的机会。
但实际上,数据仅作为桥梁和前端的呈现显然已然不够,其更应该成为企业数字化转型的核心决策支撑,在归集数据的同时,需要给予产业作出行业定制化的表达。
什么才是智能BI?
简单来说,数据治理就是把企业数据从杂乱、不可控转化为可控、易用的过程。
而这种通过采集、传输、存储的一系列标准化流程与企业效益有着直接关系。从艾瑞披露的数据来看,2020年商业数据智能市场结构中垂直行业拓展应用占比最高,达62.0%,对应市场规模569亿元,这一比例在未来5年将进一步提升,对应市场规模达2345亿元。
市场趋生参与者也趋生行业发展不够均衡的现状。
目前,我国金融、零售行业数字化发展水平较快,已处在可视化发展向商业智能迈进阶段;而制造业、工业等方面进展略有迟缓,呈现出供应商分散、芯片、新能源等企业发展超前,传统制造业仍处于人工居多的两极化现象。
处在行业发展水平不均的时代背景下,如何把狭义数据处理的分析方式、信息提取转变的更宽泛、有弹性?
答案是利用云大物智的协同能力。
在狭义的数据处理中,数据分析产出有价值的信息是主要目的,而广义的数据处理可以在此基础继续深化,发现数据中的信息及运作逻辑,给此后的业务决策提供理论基础和结果导向。
而云计算、大数据、物联网及人工智能的出现在某种程度上构建出新型网络架构。大数据及数据存储平台的基础性,云计算的IT基础设施的灵活调用能力,物联网的数据交互网络体系,人工智能的数据分析理论引导,四项融合给数据治理带来新的想象空间。
在处理低成熟度行业时,多项技术引导的方式能够在保障数据完整性前提下,解决数据质量差、数据孤岛、管理机制不足的缺陷。
尽管现阶段很多企业尝试以业务流控制数据流,但由于缺乏系统机制往往会面临时间成本耗费但未果的情况,这也从侧面反映出部分行业在基础数字化建设存在的发展空间,而建立于云大物智智商的商业数据智能应用也会在这些成熟度较低的行业存在发展前景。
总体来看,对于新时代的BI而言,应该摆脱固有的数据治理观念,更多的在技术支撑下实现数据的归类和产业表达,从数据库的底层开始最终到时BI上层的数据呈现,构建出一个完整的数据使用闭环。
恰如那句话所说,“我们现在需要的不仅是石油,更是如何使用好石油。”
注:文/产业媒体,文章来源:产业家(公众号ID:chanyejiawang),本文为作者独立观点,不代表亿邦动力立场。
文章来源:产业家