当生命科学与人工智能这两项前沿科技领域交汇在一起,我们的世界会变成什么样?
在过去,研制一款用于治疗宫颈癌的HPV疫苗,至少要经历病原体研究、实验室测试、动物实验、三期临床试验等几大步骤,耗费十几亿美金,积累数以万计的临床数据,花上近十年的时间才能见效。
成本居高不下,创新药的售价自然高昂。
如九价HPV疫苗,在中国药监局的不懈努力下,其价格在近十年内下降了九成,但每针价格依旧高达上千元,令许多家庭望之却步。
好在,持续进步的科技正在改变这一切。
在10月27日举办的第三届中国生物计算大会上, AI模型提供商BioMap百图生科正式发布新一代生命科学基础大模型——xTrimo V3。该模型具有大参数、多模态的优势,参数达到2100亿,可覆盖蛋白质、DNA、RNA等七大生命科学主流模态。
百图生科联合创始人、CEO刘维解释了这一技术的威力:“过去,为了研制一款新药,药企需要积累海量实验数据才能开发出药物模型。为此,企业要付出五年时间和数亿美金。但有了xTrimo V3,制作模型所需的数据量将缩减至十分之一,效率大幅提升,研发成本大幅减少。”
大模型技术,正在切实改变生命科学行业。复旦大学智能医学研究院常务副院长刘雷表示,“AI将彻底转变传统的step by step医学研发模式。未来,利用大数据和大模型指导药物发现将成为行业标配.”
多位专家甚至预言,“下一个诺奖,可能不再是AI+Science,而会是Foundation Model + Science”,大模型+生命科学的技术发展路径,已成为此次生物计算大会中各位专家间的共识。
今年,用AI模型预测蛋白质结构的相关技术,已摘得诺贝尔化学奖的桂冠。在可以预见的未来,还会有越来越多的学者、企业参与进来,一起用AI技术推动生命科学发展。
在生物计算大会上,百图生科同清华医学院、复旦大学智能学院、大北农集团、华为云等十余家生命科学、AI领域的知名机构签署战略合作,宣布打造xTrimo生态,联合推动生命科学技术进步。
一场轰轰烈烈的生命科学技术革命,拉开序幕。
1.用5%的数据,实现70%数据效果
在生命科学领域,前沿创新技术的探索耗时大、成本高,历来是研发开销的大头。
比如创新药物,据德勤发布的《2021医药创新回报率评价》,15家全球领先的生物制药公司,平均研发一款创新药需花费20.06亿美元,从临床前靶点筛选到最终上市,至少要花费至少13.5年时间。与此同时,这些新药研发成功的概率仅为10%。
研发过程极复杂,成本极大,风险极高,这就是生命科学领域一直以来的现状。
研发之所以困难,一个重要原因是在于前沿实验的成功概率太低,形成模型所需的数据量太庞大。
过去,新药研发通常以计算机辅助药物设计的方式展开,通过构建量子尺度模型来模拟分子的结构与行为,从而预测药物分子的各种性质,并加以利用。但这种方式无法在数据量不足的情况下,完成模型设计。
所以,实验室数据通常就要几年的时间来细致测算,之后还要用大量小白鼠做动物实验,研发动物模型,应用到人类身上,临床试验还需要进行三期,耗时长达数年。
此后,AI设计药物技术崛起,AI可以基于大量的数据分析来主动识别潜在的药物靶点,无需做具体实验即可进行预测,将完成模型所需的数据量从计算机辅助的100%降低到了70%。效果显著,但成本依旧高昂。
而以xTrimo V3为代表的生命科学基础大模型技术,恰恰能在数据上为生命科学研发工作赋能,从而实现大幅的降本增效。
xTrimo系列是百图生科的核心技术成果。这家AI公司成立于2020年,是全球最早专注于生命科学基础大模型的平台公司,至今已先后推出三个版本的模型,多次登上Nature子刊封面和学术顶会。
刘维介绍,“凭借积累的大数据,生命科学基础大模型可以利用新药测试中5%的数据,推算出100%的药物模型成果,这就是生成式AI的威力。从传统AI的70%到大模型的5%,这就是我们能做的。”
也就是说,对比传统AI技术,xTrimo V3让新药开发所需的数据量直降了93%。能实现这样高效的提升,百图生科的秘密在于超高的模型参数和对生命语言的深度理解。
百图生科技术副总裁张晓明解释,“xTrimo V3在过去的版本基础上,将参数扩展到2100亿,一跃成为全球规模最大的生命科学领域AI基础模型。同时,xTrimo V3引入全球首个MoE架构,DNA序列长度突破128K,这意味着,我们的模型在基因组学、遗传病预测和精准医疗领域能实现能精准的预测。”
图:百图生科技术副总裁张晓明
“正是因为学习了上千亿的参数,xTrimo V3得到了充分训练,能找到包括蛋白质、DNA、RNA在内多个领域的规律,所以我们才能去生成那65%,用5%的数据,实现70%的效果。”刘维表示。
生命科学大模型的厉害之处不只是参数大这么简单,更关键的是模型对生命语言的理解以及对未知的探索能力。这两点,才是生命科学大模型区别于传统语言大模型和机理模型的优势所在。
传统语言大模型,主要是对自然语言进行学习。比如通过学习医学文献中的中英文等词语,来理解其学术含义,再据此生成内容。生命科学大模型则是直接基于碱基、氨基酸和蛋白质的生命语言进行建模,能理解生命系统的深度表征,所以能探索更深入、更前沿的科研方向。
机理模型则是科学家凭借对生命科学各领域第一性原理的深度认知,基于大量数据拟合出来的一种模型,在过去三十年中主导了各类重要实验技术的发展方向。它的缺点在于,无法在数据量较少、科学家认知较浅的前沿创新领域发挥威力。
xTrimo V3生命科学大模型则不同,“这本质上是生命语言模型,符合语言模型的基础架构,可以通过知识投射,去对很多还未知的方向做猜测。这也是我们能用5%的数据实现过去70%数据效果的原因。”刘维说。
用大模型技术为生命科学研发工作降本增效,背后的市场需求也非常庞大。据Global Market Insights统计,2023年,全球生命科学行业购买动物模型所花费的金额高达140亿美元,在模型购置上的总开销超过千亿。
目前,百图生科已利用生命科学大模型技术,先后助力各类企业开发了20余种前沿抗体和酶、实现了10余个创新靶点的挖掘,并都经过了实验验证,推进进入临床前研发等后续阶段。
百图生科也在加快商业化脚步,在成立四年的时间里,它已服务全球300余家用户,其中包括跨国药企、大型CRO、明星创业公司、国内外研究机构,签署了超过20亿美元的总潜在订单。
2.拓宽应用场景,打造生命科学AI模型平台
完成从0到1的蜕变,生成式AI的效果未必最好,但从1-100,生成式AI的效果必然是颠覆式的。
在成立后的四年时间里,百图生科用其中三年训练出世界首个千亿参数的蛋白大模型,而后仅用一年时间,就将其模态范围,从蛋白质扩展到DNA、RNA等七大生命科学主流模态。
对xTrimo V3相对于其他模型的优势,刘维解释道,“第一是多模态,应用场景广泛,第二是产品化能力,我们追求的是构建一个科研底座,用最简便的操作,实现科研目标。”
刘维进一步说明,“即使是不具备编程能力的科研人员也可利用大模型和数十个蛋白质相关任务模型、配套软硬件系统,开展创新蛋白设计,在底层的大模型平台上构建新的应用场景。”
就应用场景来说, xTrimo V3 大模型的作用并不像机理模型一样,能通过一个单一的完整模型,来定向解决某个前沿问题。它更多是作为一个基础平台,为那些既缺乏现成的泛化模型,也缺少实际数据的前沿研究,进行embedding赋能,利用千亿参数和万亿数据中蕴含的知识,为难解之题带来一些来源于十亿年生物进化树上的高维信息。
“所以V3版本的目的是支撑快速发展的生命科学新领域新问题的探索需求。”张晓明介绍,“所以我们把重心放在了拓宽应用场景上,与V2平台相比,V3不仅巩固了之前在蛋白质领域的基础和继续了在细胞领域的发展,还拓展至基因组学、转录组学、细胞复杂任务、影像分析和文本分析等领域,支持从分子早期研发到生产放大再到后期实验分析的全流程AI建模需求。”
产品化能力则是xTrimo V3的另一大亮点。
百图生科在内部应用大模型平台实现高效建模后,一直在探索更强的工具链和产品化能力。
去年3月,百图生科就曾发布基于xTrimo驱动的 AIGP(AI Generated Protein) 平台。该平台交互窗口便捷,贴合自然产品使用直觉,能让科研人员“无痛”上手。
在此次大会上,xTrimo V3平台还发布了专门的模型工具链,将各种数据场景和用户需求打包成Model Builder 模块,让企能业更便捷的实现个性化使用,为企业打造专属的AI工具。
张晓明介绍,百图生科结合已有模型与模型定制能力,在不同行业提出了药物研发解决方案、生物制造解决方案和AI4LS平台解决方案,通过AI模型和配套的服务,帮助企业加速创新,提升研发效率、优化流程,让企业能够更快地从实验室走向市场。
拓宽应用场景,构筑生命科学科研底座,是目前百图生科的发力方向。从今年7月开始,这家年轻的AI公司就宣布开始商业化。在生物计算大会,百图生科又宣布加大国内商业化力度,正式启动面向中国区市场的生态建设。
发布基于xTrimo基础大模型底座、Model Builder工具链等系列动作,就是百图生科商业化的初步成果。
截止目前,百图生科在全球范围内签署了超过20亿美元的总潜在订单,其中包括最受关注的赛诺菲与百图生科的总交易金额10亿美元合作订单。
在此次生物计算大会上,百图生科宣布同清华医学院、复旦大学智能学院、大北农集团、华为云等十余家生命科学、AI领域的知名机构签署战略合作,宣布打造xTrimo生态,在多组学多模态大模型研究、生物医学中心建设、菌株大模型训练等多领域展开合作,联合推动生命科学技术进步。
在融资方面,百图生科也在大踏步的前行,至今已获得超过2亿美元的风险投资。
其中,2021年7月,百图生科完成上亿美元A轮融资,由GGV纪源资本、百度等跟投,创始人李彦宏继续追加投资;今年6月,持有620亿港元初始资金的香港投资管理有限公司(港投公司)公布领投百图生科新一轮融资。
商业化发展是支持科学技术长期进步的关键环节,也是衡量一家企业生态是否闭环的依据。通过AI技术破解复杂的生命科学难题,这背后的社会效益、经济效益都非常可期。
如果利用AI真能够将研发效率提高10倍甚至100倍,那么,高昂的新药研发费用也许真的会降低到不可思议的程度,就像人们所期盼的那样。
文章来源:甲子苏州