每个人都是移动的“数据矿”,但是,还是养不活AI医生。
“你的血压在升高”“我这样做能改善你的情绪吗”……这是电影《超能陆战队》中健康管家“大白”的经典台词。研究者给他安装了“医疗芯片”赋予其治病救人的能力。
在全球都深陷“看病难看病贵”泥潭的今天,谁不想要一个24小时监测健康情况、随时解决健康问题的“大白”?但是现实情况是,无论是用于严肃的医疗场景,还是日常健康管理,没有足够的数据,很多“大白”都是巧妇难为无米之炊。
在其背后,医疗数据领域长期存在的因医疗乱象而产生的“脏数据”,以及各家医院分而治之导致的标准不统一、“数据孤岛”等问题,都成了新技术在健康领域应用的桎梏。
为了解决数据问题,AI医疗、AI制药公司,从合成数据到自建“数据矿”(自动化实验室)想了很多办法,但是核心的,与病人直接相关的数据,还是很难获得。
现在情况正在改变。
就在8月30日,国务院常务会议刚刚审议通过了《网络数据安全管理条例(草案)》 。其中明确提到了“要厘清安全边界,保障数据依法有序自由流动”,进而,为促进数字经济高质量发展、推动科技创新和产业创新营造良好环境。
这意味着,大数据的价值被提到了新的高度,大数据交易的规则和路径也在逐渐清晰。乘着这场东风,AI医疗发展的数据难题有望快速解决。
医疗数据能在阳光下“变现”了
胸科单一病种“数据集”,“卖”了150万元;
经过资产登记、质量评估和资产价值评估,某医院的抑郁症病数据“卖”了500万元;
在骨科机器人辅助下完成的骨科手术,相关数据按照1020万元增资入股到了一家公司……
这是2024西普会“AI For Health”高峰论坛上,北京国际大数据交易所(简称“北数所”)副总经理潘冲分享的案例,就真实发生在中国医疗领域。
作为落地单位,潘冲所在的北数所推动“医疗健康数据流通试点”落地——该活动由北京市经济和信息化局会同北京市医管中心组织北京安定医院、北京积水潭医院等6家市属医院开展,已经完成了累计2000万元的交易。
就在潘冲分享上述案例之前,心理应用大模型“洞见人和”,已经完成了数据资产评估,以3.25亿元的高价刷新了行业认知。
这些事件都在传递一个信号,那就是医疗数据真的可以“变现”了,也真的可以体现在财务报表上,让财务数据更好看。
数据的“钱”力不止于此。
仅在医疗领域,根据安永(Ernst & Young Global Limited)报告,NHS(英国国家医疗服务体系)的医疗数据,每年产生的总价值达到96亿英镑(约合897亿元人民币)。这些数据还只覆盖了5500万人的电子病历和触及护理记录、2300万人的专科护理记录以及10万人左右的基因数据。
在患者更加众多的中国——根据国家医保局统计数据,仅住院就有2亿人,门诊慢特病有3.4亿人,可以产生的数据量几乎是英国的数倍之多,如果充分流通起来,这些数据能够产生的价值将非常可观。
按照国家工信安全中心测算,到2025年,数据交易将贡献国内GDP增长的1.8%,数据要素的规模产值将突破1.5万亿元。医疗数据是其中重要组成部分,也将很快达到500亿元规模。
而且,这泼天富贵中,也有普通人的一杯羹。
在“数据二十条”(全称《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》)里,有关于“建立健全个人信息的数据确权授权机制,探索个人分享的数据价值收益的方式”的内容,北京市的“数据二十条”里面也专门提到了相关内容。
为此,北数所也建立了数据授权平台,可以对接到个人和企业。对接到北数所平台上的个人数据,如果被申请使用,这个人就会收到授权请求信息,在充分了解谁将在什么场景使用数据的情况下,选择同意或拒绝授权对方使用。如果同意授权,这个人就可以从该交易中分到一笔收益。
“我们每个人名下都有成千上万条这样的数据,它们都是个人的数据资产。”潘冲说。
事实上,数据的价值,特别是医疗数据的价值,被觊觎已久。在数据交易通道没有打开之前,数据也在灰色地带持续交易着,只是在那里,个人的隐私得不到保护,更不用说获得收益了。
数据交易放到阳光下以后,交易的数据要脱敏,获取方式也要合规,这样就可以形成多方获益的局面了——除了直接地惠及医生和患者,因为具有帮助快速把握事物规律的属性,这些数据也将在新药开发、公共卫生管理等方面给出更多支撑。
中国“AI医生”不能再等了
在AI快速发展的今天,数据交易已经日渐成为“刚需”了。
尽管ChatGPT等人工智能大模型,已经给碳基生命带来了太多震撼,但是,它们还是没法在缺乏专业数据的情况下,成为任何领域的专家。以ChatGPT为例,它可以通过语言文字认识颜色,了解没有见过的事物,但是没有受过训练的情况下,也没法很好地胜任健康咨询的任务。
2023年,一份发表在权威期刊JAMA(美国医学会杂志)上的试验结果显示,ChatGPT在根据现行临床指南针对心血管疾病预防保健提出建议时,虽然有84%的回答是合理的,但是另外4个答案,不仅错误,而且有害,是严肃的临床诊疗中绝对不允许出现的。更多试验中,还进一步发现了伦理、法律等方面的问题。
这既提示了对ChatGPT“行医”需要有更多人工复核、监督的问题,也说明专业数据对特定领域的人工智能,特别是医学、生命科学等容错率非常低领域的人工智能,是足以扼住咽喉的影响因素。
从整体来看,人工智能已经是国家竞争力比拼的关键,如果在这方面落后于人,并不只是导致某个产业的落后,更会在经济增长、科技创新等各个方面拖后腿,甚至会在社会问题,如城乡差距、老龄化等问题的解决上落后于人。
由于大模型逐渐在AI世界占据主导,作为“燃料”,数据已经成了下一阶段各国AI竞争的关键,甚至有业内人士称其为人工智能的“护城河”。
正因为此,国家层面对数据如何在安全有序的前提下,顺畅交易,已经越来越重视。除了前述提到的《网络数据安全管理条例(草案)》,此前还有诸多文件发布,包括纲领性的“数据二十条”,推动落地、列出时间表的《“数据要素X”三年行动计划(2024-2026年)》 等。
在今年全国两会期间,“数据交易”也是被频频提到的热词。还有相关专家建议建立国家级数据交易市场,方便“数据要素”在全国范围内自由交流、交易。
在AI最为重视的生命科学领域,各方都更加迫切地需要数据流通起来。有AI制药头部公司联合创始人直言,AI制药接下来的竞争将在数据领域。
这种紧迫感,随着全球AI+医疗、制药竞争的白热化,也在不断升级。
从公开数据看,2012年到2022年,美国食品药品监管部门FDA批准的AI相关医疗器械数量增长了45倍以上。
全球领先的医疗大模型谷歌的Med-PaLM2,在此前的测试中已经表现出了与医生基本相当,甚至超过人类专家的实力。2023年发表在《急诊医学年鉴》上的一项研究显示,欧洲研究者向AI提供了30名急诊患者的症状、体检和化验结果记录后,AI对患者作出正确判断的比例为97%,超过人类医生的87%。
这当然不意味着人类医生会被AI取代,但是,意味着,在接下来生命科学领域的尖端探索中,没有AI辅助工具的医生,很可能会远远落后于有AI辅助的医生。
而在国内外医疗“AI助手”成长为“AI医生”的道路上,一定规模的高质量临床数据也必不可少。
从这个意义上讲,中国医疗领域的AI,也不能再受限于数据了。
还只是开始
客观来说,中国在打破“医疗数据孤岛”方面也做了很多努力,也有了一些初步的成果。
比如:北京、上海等城市已经建立了区域统一的医疗数据平台;浙江省部分医疗影像数据已经可以在公立医院之间共享了;如前所述,医疗数据的交易也在多个示范区悄然开始了。
对于药械企业来说,今年1月份以来,数据也可以作为资产列入财务报表了。根据公开信息,截至上半年,已经有125家企业加入到了数据资产入表的行列,涉及多家药械企业。
临床方面,在中国,支付宝、百度、腾讯等互联网巨头,都在尝试将AI技术与诊疗活动、健康管理结合起来,清华大学的“AI医院”也曾引起过大众的一波关注热潮。
尽管如此,其背后的支撑因素,充分利用医疗数据才刚刚开始,挑战仍然很多。潘冲直言,医疗数据交易非常敏感,大家操作的时候都是小心翼翼的,所以必须一步一步通过试点推开。
实际上,中国并不缺少医疗数据。国家卫健委发布的最新版卫生年鉴显示,2023年,全国卫生机构总诊疗人次达到96亿人,由此产生的医疗数据预计早已超过百亿条。业界认为,如此庞大的数据储备规模,已经堪称是国家重要的基础性战略资源了。
但是,因为各家医院标准不统一,数据参差不齐,存在数据精准度不够,数据一致性不够,原始数据在录入过程中数据错漏、数据不完整等问题。此外,由于大量医疗数据是以文本、影像、图像等非结构化方式储存的,这些数据的管理和整合也非常困难。
(虎嗅注:非结构化数据,是指数据结构不规则或不完整,没有预定义的数据模型,难以用数据库二维逻辑表来表现的数据。)
同时,这些医疗数据还涉及患者的个人隐私等问题,有医疗数据领域法学专家曾指出:“如果没有每个医疗机构对数据按照统一技术标准清洗处理和合规治理,很难想像医疗数据可以安全有效地开放利用。”
而要把这些数据,通过治理变成分门别类、清晰准确、可以用的状态,也就是成为“产品”,这件事本身难度就非常大,也需要巨大的资金投入。
更为棘手的是,作为数据供给方,医疗机构和药企,都还缺乏拿数据赚钱的动力。当下,由卫健委、医保局或者地方政府主导,汇总医疗机构数据,做一部分治理以后形成公共数据,再将这些公共数据的使用权卖给有需要的AI企业的模式,反而成了当下最行之有效的通路。
实际上,即便是没有做任何治理,只是备份数据,就已经很令医疗机构头疼了。随着数据积累越来越多,一些大三甲医院的信息科负责人已经在抱怨,现在设备越来越先进、越来越精准,导致数据量越来越多。
“目前的数据治理能力跟不上数据资源的膨胀速度。”华通智研院副总经理、青岛数据资产登记评价中心主任赵传启告诉虎嗅。
即便是高质量的数据,也存在场景评估和价值评定标准缺失的问题;这些数据如果没有应用场景,也无法形成交易。而且很多涉及个人的数据,在采集过程中没有获得个人授权,这也会在交易环节带来合规问题。
医疗行业是一个强监管的行业,任何新技术进入其中都会受到慎重的评估。叠加上同样严格的数据管理规则,业界人士担心,立法过于严格会限制行业的发展。“现在的一些法律如果严格执行,很多事情就做不了了。”
这些问题的解决需要业界付出更多努力,需要政策、技术上有更多突破。在此之前,潘冲认为,“当前的第一步,是一定要把数据拿出来,要交易,要让数据进入市场。”
实践会解决很多问题,比如:如何定价。“就像超市里的商品,没有权威机构给它定价,有市场规律在起作用。”潘冲认为,充分的流通交易后市场会给出一个合理的价格。数据的价值也有望在使用中充分体现,甚至不断增值。
对于如何激发供方参与积极性,赵传启认为,“建立起让各方受益的利益分配机制,或许是较好地解决问题的方式。”
无论如何,医疗数据交易的闸门已经打开了,新技术对生命科学这个传统行业的冲击也汹涌而至。按照中康科技董事长吴瀚的预测,未来三五年,大数据也好、AI也好,新技术会广泛渗透到健康产业的各个环节。
届时,每个人拥有自己的“大白”或许也不再是奢望了。
注:文/陈广晶,文章来源:虎嗅APP(公众号ID:huxiu_com),本文为作者独立观点,不代表亿邦动力立场。
文章来源:虎嗅APP