2024年,诺贝尔化学奖授予了三位在蛋白质结构预测领域的科学家,其中两位因开发AlphaFold而获奖。
AlphaFold是解决蛋白质结构预测问题的AI工具。蛋白质是人体细胞、组织的重要成分,蛋白质结构是药物研发的重要起点,大多数药物研发都基于蛋白质结构进行理性设计。AlphaFold证明了AI和计算技术在生物医药领域的潜力。近两年,大模型GPT等技术的发展更是给生物医药行业带来了新的可能。
据科技媒体Tech Emergence统计,AI技术每年可为制药行业节约高达260亿美元的研发成本。根据波士顿咨询2024年发布的研究,AI生成的药物分子在I期临床试验中,成功率高达80%~90%,高于50%的历史平均水平。
尽管业界有一部分声音曾质疑AI在制药领域的应用前景,但如今,在药物研发环节,从最早的靶点识别,到化合物发现、临床前研究、临床研究,再到上市后的安全性监管和市场推广等,每个领域都有企业在进行与AI相关的研究。
早在2015年,赖力鹏就和温书豪、马健联合创立晶泰科技。他们选择了一条独特的路径:将AI技术与机器人自动化深度结合,为制药及材料科学(包括农业技术、能源及新型化学品以及化妆品)等产业的全球和国内公司提供药物及材料科学研发解决方案及服务。
新冠期间,晶泰科技通过AI预测算法结合实验验证,协助辉瑞公司仅用六周就确认Paxlovid(新冠口服药)的优势晶型,加快了这一新冠治疗药物的研发过程。
2016年,峰瑞资本成为晶泰科技的A轮投资方。2024年6月,晶泰科技(2228.HK)正式在香港交易所主板挂牌上市,成为“国内AI制药第一股”。
在不久前的峰瑞资本2024年投资人年度峰会上,晶泰科技联合创始人/首席创新官赖力鹏发表了题为《AI在药物创新中的价值和未来机会》的演讲,深入探讨了AI与生物制药在碰撞发展中创造的新可能,他提到的话题包括:
从蛋白质结构预测到蛋白质设计,AI带来了哪些变革?
AI如何帮助突破生物制药领域的“反摩尔定律“?
如何找到一条全局最优的药物研发路线?
如何提高生物科学数据的利用效率?
如何跨越从临床前到临床转化的“死亡之谷”?
01
在生物制药领域,AI有什么作用?
生物医药是一个具有巨大社会价值,并且保持稳定增长的市场,它同时也充满挑战。
具体而言,药物研发通常会面临“三个10”的困境:研发周期超过10年,投资超过10亿美元,成功率不到10%。医药领域还有一个著名的“反摩尔定律”,是指生物医药的投资回报比随时间呈指数级下降。半导体行业中的摩尔定律是指集成电路上可容纳的晶体管数目,约每隔两年便会增加一倍。医药领域的这则定律则被幽默地称为“反摩尔定律”(Eroom's Law),即摩尔定律(Moore's Law)的反向拼写。
另一方面,近年来,在生物制药领域,我们特别深刻地体会到AI带来的影响。
2016年,AlphaGo战胜李世石,人们见证了历史性时刻,但那时候一些人认为AI的能力可能仅限于游戏领域。
仅仅两年后,AlphaFold出现,对生物制药领域产生了重大影响。蛋白质是人体细胞、组织的重要成分,蛋白质结构是药物研发的重要起点,大多数药物研发都基于蛋白质结构进行理性设计。
此前,获取一个蛋白质结构的成本在几万到几十万人民币,生物医药企业难以进行大规模研究和尝试。尽管AlphaFold在当时并未完美解决这个问题,但它证明了AI和计算技术在生物医药领域的潜力。近两年大模型GPT等技术的发展更是给生物医药行业带来了新的可能。
之前,业界有一部分声音质疑AI在制药领域的应用前景,但目前这已不再是一个问题。
在药物研发环节,从最早的靶点识别,到化合物发现、临床前研究、临床研究,再到上市后的安全性监管和市场推广等,每个领域都有企业在进行与AI相关的研究,而且已经有很多成功的商业化案例。此外,2024年,诺贝尔化学奖授予了三位在蛋白质结构预测领域做出突出贡献的科学家。
基于结构预测,已经产生了很多临床应用。这里举三个例子。
第一个是小蛋白设计,这个领域受到生物医药界的广泛关注。小蛋白的长度约为60到100个氨基酸,由于具有稳定的蛋白质结构,因此在体内具有良好的稳定性,甚至可能具有透膜性(化合物通过脂质膜结构的速率,透膜性会影响药物的吸收和疗效)等特点。在新冠疫情期间,我们针对新冠病毒和细胞转染过程设计了一种小蛋白,在假病毒(有类似活病毒的生物特性,但没有活病毒的致病性)实验中,它展现了显著的病毒传播阻断作用。
第二个例子涉及人体内一类非常重要的蛋白质——细胞因子。细胞因子对机体的免疫应答和抗病毒感染等有重要作用。我们针对白介素2这种细胞因子进行研究,借助AI设计,我们能够定量调控白介素2在人体内激活免疫反应的同时,降低其免疫抑制功能。
这项研究已经有多家公司在尝试,通常情况下基于经验的蛋白设计是在蛋白-蛋白的作用界面上面进行设计,“我”和“你”的相互作用在哪个位置,我就在那个地方去做修改。但通过AI,我们可以找到所谓远端的有效突变。也就是说,我们用来优化白介素2的突变不在蛋白作用的截面上,而是通过远端突变对蛋白作用产生间接的影响,这个大大扩展我们做新药可以设计的空间,在商业上也增加了产生新的专利、产生新颖药物的机会。
最后一个例子是工业酶的改造。通过AI引入突变,我们开发了5个候选分子。这种蛋白在50°C高温的条件下,能够实现比野生酶高三倍的催化效率。
这些实例表明,AI的应用已经超越了蛋白结构预测。
在目前备受关注的mRNA(信使核糖核酸)和siRNA(小干扰核糖核酸)领域,我们也进行了相关的研究工作。
在mRNA方面,包括mRNA疫苗及其他mRNA产品,我们通过对非编码区和编码区的协同优化,提高了mRNA的稳定性和细胞内表达量。而对于siRNA,我们用算法提升了它的靶向性和精确静默效率。这对于提升相关药物的药效,降低毒性,降低成本都有潜在的价值。
02
如何找到一条全局最优的药物研发路线?
AI在生物制药领域已经有很多应用,那么它最大的价值是什么?
我是物理学背景出身的,特别欣赏一个例子,是一个17世纪的数学问题,称为“最速降线问题”:一个小球从斜面最左端滚动到最右端,如何确定一条轨迹使小球运动时间最短?
这个问题看似简单,只有重力加速度这一个常数,但当时最优秀的数学家们用了好些年才解决。有趣的是,最终的解决方案非常反直觉。最快路径是图中的红色曲线。
大家可以感受到最反直觉的部分是:为了获得全局最快的速度,小球的水平位置需要先降到终点以下,然后再上升。这种思路很难凭直觉得出。这条曲线被称为“最速降线”。
对照生物医药的研发,这个例子具有直观的意义。药物的研发立项就是斜面的最左端,药物成功上市获得商业收益是最右端。在这个过程中,我们追求的并非每个局部的最优解,而是如何规划一条路径,提高药物研发效率,造福患者。
最速降线问题需要考虑的核心因素是重力加速度常数,而在生物医药领域,你需要和上百个不同专业领域的专家协作,还要考虑一系列政策因素,包括支付、医保、审评、监管等等。
在这种情况下,如何找到一条全局最优的药物研发路线,这是AI能够带来的最根本价值。换个说法,这是从第一性原理出发,思考如何运用AI帮助我们预见在这条路径上可能发生的情况。
这种方法已经在实践中得到验证。辉瑞在2022年发表的一篇文章中,比较了其内部从一期、二期、三期到综合临床开发的成功率与行业平均水平,数据显示,辉瑞在2019年之后的整体成功率明显高于行业平均水平。他们总结了三点经验:第一是更深刻的生物学理解,第二是分子类型的多样化,第三是在决策过程中引入更定量的标准。
联想一下,AI技术其实能够让这三点得到显著提升。我们可以在药物研发过程中引入更多对生物学的全局理解,对不同分子类型(如小分子、抗体、融合蛋白或细胞基因疗法)的综合认识,以及引入更多专家意见和定量指标。实践已经证明,我们能够突破反摩尔定律,带来应有的商业回报。
03
如何提升生物科学数据的价值?
AI主要在数据端提升了生物医药领域研发的效率。尤其在蛋白结构预测和蛋白分子设计方面,2024年诺贝尔化学奖得主戴维·贝克(DavidBaker)团队已经做得很出色,那么这个领域还有发展空间吗?
这是我们内部的一个案例。在多肽领域(特指长度不超过30个氨基酸的短肽序列),我们在20万条公开数据的基础上,通过定制化的数据增强获得了80万条内部数据,同时收集了约1万条完全内部数据。基于这个模型,我们在多肽设计方面的表现优于ProteinMPNN(DavidBaker团队用于蛋白设计的模型)。
这里需要实事求是地说明,我们并不是声称能够超越David Baker团队的整体水平,他们确实做了出色的工作。但在专业的生物医药AI研发领域,通过专有数据积累进行模型微调,我们可能获得比通用模型更高的准确度。
OpenAI前首席科学家伊尔亚·苏茨克维(Ilya Sutskever)曾提到一种观点,可能预训练模型(Pre-Training Model)已经接近天花板,未来AI的发展可能更多依赖于代理式人工智能(Agent)和推理能力(Reasoning)。
这个判断可能对互联网领域是成立的,但在AI生命科学领域,我认为仍有很大空间。(欢迎阅读《AI for Science:站在科研范式的转折点上 | 峰瑞报告》)
首先,生物学的数据仍然有限。其次,如这个例子所示,AI在专有数据方面仍有很大提升空间。因此我们判断,未来三四年内,数据仍将是AI生物医药落地和体现价值的关键因素。
有三个方法可以提升数据的价值。
第一,通过一系列自动化或标准化的高质量实验方法提高数据质量,降低数据获取成本。
在晶泰,我们构建了一个较大规模的自动化化学实验集群。
在硬件之上,我们构建了三层架构:紧贴物理硬件的是数字孪生系统,所有新的实验方案都会先在数字孪生环境中运行,然后再在物理环境下部署。中间层是一套化学编程语言,可以通过编程方式描述所有化学反应。最顶层是一套自然语言系统,用户可以将自然语言和系统交互,转译成化学语言,然后在自动化系统中实现。这些都不是概念图,而是在我们深圳和上海的实验室中已经实现的系统。
第二,开发新的实验方法来增加数据维度。近年来,多组学技术、空间组学、高内涵实验技术逐渐发展,产生大量数据信息。
《自然》(Nature)杂志于2024年12月发表了一篇论文(Method of the Year 2024:spatial proteomics),谈到了空间蛋白质组学。
目前业界讨论较多的是空间转录组(可以从时间和空间维度上,解析单个细胞的基因表达模式,以及细胞类群的空间位置关系及生物学特征)。但蛋白质是和生命活动关系更为直接的分子类型,因此,如果能实现空间蛋白质组学分析,把空间中的细胞类型信息与蛋白质组数据联系起来,这将是一个令人振奋的进展。
第三,在获得大量数据后,需要配套的数据分析方法。因为大数据往往伴随着大量噪音,如何通过更好的数据分析方法提高信噪比至关重要。
回顾深度学习的发展过程,2012年是一个重要时刻。这一年,计算机在图像识别准确率上,首次超过了人类。其中一个关键因素是,此前基于机器学习的方法依赖于人工定义特征,如眼睛距离、鼻子长度、嘴巴宽度、脸部横纵比等。而基于卷积神经网络的方法,只需要输入图片像素,无需人工,基于经验预先就可以进行特征判断。
同样,在处理单细胞大数据时,我们基于Transformer模型的Attention结构进行了调整。这一调整的主要区别在于:过去对每个单细胞都采用相同权重处理,人工根据经验排除不良数据,保留优质数据,但保留的数据仍是统一权重。
采用Attention机制后,由机器判断单细胞数据的质量,并赋予0到1之间的动态权重。仅仅这一改进,就使我们在不同的药物研发相关任务中取得显著提升。
我相信,未来基于Transformer模型或更新颖的架构,能够比传统分析方法带来更好的成果。
04
未来,AI重塑药物研发的三个方向
未来,AI如何影响药物研发?
我们看好三个方向。首先,虽然AI在整个产业链上都有应用,但接下来的重点是让AI帮助药企跨越从临床前到临床转化的“死亡之谷”。如果能够实现这一突破,将完全重塑现代药物研发的流程和方式。
药物研发的挑战在于,我们不能直接在人体上进行药物试验,这既有成本考虑也有伦理限制。因此,所有药物研发工作都在努力构建一个不依赖人体的评价体系,我们希望这个体系和人体有更好的相关性。大语言模型训练后会有一个人类经验的强化学习,这是人类知识和机器大模型的对齐过程,即用人的经验帮助大模型作出判断。
以往,为了跨越临床前到临床的转化,需要依赖专家对生物标志物(生物标志物是可以客观测量的生物参数,用于指示疾病状态、生理过程或对治疗的响应)的选择。晶泰则尝试参考RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)方法,依靠临床实际疾病状态,来指导选择。目前,我们在阿尔茨海默病和抑郁症这两个方向已有初步进展,未来希望能够开发出更好的精神类疾病和神经类疾病的临床前筛选模型。
其次,是基于大模型的Agent和专家的人机协同。
药物研发需要汇集不同专家进行决策,这对很多公司,尤其是早期生物科技公司来说较为困难。如果能利用大模型构建不同专业领域的虚拟专家,实现人机协同,将是一个非常有价值的工作。
2019年,阿斯利康公司发表的一篇文章提出了5R框架,阐述如何整合不同专家意见,将药物开发成功率从4%提高到19%。
在晶泰科技创新中心有一个名为“Project42”的项目,项目名字42来源于一部科幻小说中提到的,宇宙的终极答案是42。这是一个智能体交互系统,你不仅仅能跟大语言模型对话,还能获得临床、抗体研究、药物设计等方面的专家的支持。这个项目基本上可以使1-2个人的效率提升5-10倍,完成基础的药物设计、文献调研等工作。
第三是建立开放生态。美国视频生成创业公司Runway联合创始人兼CEO克里斯托瓦尔・巴伦苏埃拉(Cristóbal Valenzuela)曾经提到:“人工智能正在成为基础设施,就像电力或互联网一样重要。如今称自己为人工智能公司就像称自己为互联网公司一样。这毫无意义,因为它是通用的。每家公司都在使用互联网;每家公司都将使用人工智能。”
我们希望从互联网发展中吸取经验,其中最重要的是开放社区或开源生态的理念。目前我们正积极通过技术、资本、科研和产业的紧密合作,努力构建平台生态。在这个基础上,我们已经参与和孵化了在不同方向上的创新公司或创新项目。这些项目涉及抗肿瘤、免疫、疫苗等领域,也有一些延伸到材料设计、农业、抗衰老等不同方向。
最后,还是要回到做药的初心。我始终认同默沙东公司第二任总裁乔治·W·默克(GeorgeW.Merck)的一句话:“我们永远不要忘记药品是为人类服务的。药品不是为了利润。如果我们记住了这些,利润自然跟进,而且从来不会让你失望。”我认为,不管是技术平台还是制药公司,这都是应该坚持的理念。
注:文/赖力鹏,文章来源:峰瑞资本(公众号ID:freesvc),本文为作者独立观点,不代表亿邦动力立场。
文章来源:峰瑞资本