细胞是构成生命的基础单元,人体内的细胞时时刻刻在发生变化。根据《自然-医学》2021年发布的研究,一个人每天更新的细胞量为60~100克,约3300亿个细胞。也就是说,每过1秒,就有约380万个细胞在体内更新上线。
从微观视角看,细胞内部与外部之间,无时无刻不在进行着复杂的物质交换、能量流动和信号传递。这些动态而有序的过程,驱动着我们的生长、发育、衰老乃至疾病的发生。
理解细胞的状态变化,能够帮助我们理解生命本身。在人类探索生命奥秘的漫长旅程中,我们曾依赖显微镜观察细胞的形态,通过体外细胞实验解析生化反应,依靠细胞模型测定药物效果。如今,一种新的范式正在浮现:AI虚拟细胞——用人工智能模拟和探索细胞的生命过程。
在这种新的范式下,细胞的状态可以被类比为一篇“文章”。基因序列、基因表达、细胞影像等等生物学的观测数据就像一个个单词和句子,而控制细胞命运的生物规律,则是隐藏在背后的文章逻辑与语法。AI虚拟细胞所做的,就是“读懂”这篇文章,并从中推演出细胞行为背后的含义。
在这篇行研中,我们将聚焦虚拟细胞相关的核心话题,包括但不限于:
· 虚拟细胞是什么?它能解决什么问题?
· 过去一年,为什么虚拟细胞受到那么多关注?
· 虚拟细胞领域,有哪些创新机会?
·
希望能带来新的思考和角度。如果你关注虚拟细胞行业,欢迎联系本文作者谢达(xie.da@freesvc.com)
/01/
什么是AI虚拟细胞?
除了病毒之外,细胞是生命最小的单位——它不仅是构成我们身体结构的“砖瓦”,更是执行生命功能的基础单元。理解细胞的状态变化,能够帮助我们理解生命本身。
解析细胞和基因如何有序工作,一直是生命科学最核心的命题之一。
传统生物学中,我们通常按照“提出假设-实验验证”的研究范式来理解不同的生命现象。但在系统性还原细胞全貌时,传统研究方法显得“捉襟见肘”:无论是用抽象的数学和物理公式描述细胞的动态变化,还是全面地研究人体基因组的每个基因和基因组合,都存在着不小的挑战。
“AI虚拟细胞”正展现出应对这些挑战的潜力。它不是一个直观可见的物理仿真,而是一个类似GPT-4o、Deepseek的生命科学基础模型。
通过深度学习海量的生物学数据和医疗影像信息,AI虚拟细胞可以从全局视角出发,预测细胞在不同生物环境下的反应。比如,某种药物是否会激活细胞的特定通路?一个干细胞在特定条件下会分化成什么类型的细胞?一个细胞如何与周围的“邻居”细胞互动?
这种建模方式不同于传统的理论推演,而是以数据为语言,让AI自己“学会”描摹细胞的状态。换句话说,它不一定要先完全理解每个基因的作用机制,而是借助大规模数据中的统计规律,快速识别出那些尚未被发现但可能有效的生物结论。
/02/
生命能否被数字化模拟?
在探讨虚拟细胞时,一个无法回避的核心问题是——生命能否被“模拟”?在深入探讨之前,我们先回到生命的定义。
一、生命的定义
在不同的学科领域中,生命的定义略有差异:
· 生物学:通过新陈代谢、生长发育和繁殖等特征来界定生命。
· 化学:认为生命依赖有机分子(如核酸和蛋白质)的相互作用,能够自我维持、自我复制。
· 物理学:关注能量与熵的关系,简单地理解,生命就是不断地消耗能量,维持各个机能的有序。
·NASA:将生命定义为能够自我维持并进行达尔文式进化的化学系统。
综合这些视角,如果一个系统拥有明确边界,能通过能量交换维持内部有序,并具备自我复制能力,那么它就可以被视为生命。如果我们能在数字世界中体现这些生命的特点,其实就具备了模拟生命的理论可行性。
生物体虽复杂却高度有序,无论是新陈代谢、能量交换还是自我复制,都展现了这种有序性。也正因此,通过AI构建虚拟细胞模型才具备实践的可能。
二、在细胞水平模拟生命有必要吗?可行吗?
细胞作为生命活动的基本单位,在科学研究和药物开发中扮演着不可或缺的角色。研究人员通过实验探索生命活动所需的最小基因组,考察药物分子抑制肿瘤细胞增殖的活性,往往都是在细胞层面展开的。
物理学家理查德·费曼曾说:“What I cannot create,I do not understand.(只要我不能创造的,我就还不理解)”构建虚拟细胞基础模型,可能是解析生命有序运作机制的重要一步。
虚拟细胞技术通过模拟细胞状态的变化,不仅有助于揭示生物信号通路,还有望推动药物制备路径的发展及医药工业生产中的工程细胞优化。
那么,AI有能力“模拟”细胞状态吗?
如果把理解细胞状态比作求解复杂的方程组,那么AI可能是那个擅长找“解法”的高手。主要有三个关键原因:
第一,方程的未知数是有限的。
虽然细胞内部的基因调控、代谢通路、信号传递看似复杂,但它们并非完全随机,而是高度结构化和有序的。这意味着,即便同时存在成千上万个可能的生物分子互动,真正影响细胞状态的核心变量其实是有限的,或者说,细胞的复杂度是可能被“捕捉并建模”的。
第二,我们已经掌握了大量“方程式”。
现代分子生物学和影像技术的进步,使得科学家能够获取大量关于细胞状态变化的因果数据。例如,通过基因编辑、单细胞组学、高清晰度影像等综合手段,我们可以细致地观测和解读因特定基因改变而引起的细胞状态变化。这些观测数据就像一个个方程式,帮助我们逐步逼近细胞状态的真实模型。
第三,解方程的“工具”已经就位。
在生命有序性的基础上,深度学习算法展现出了强大的能力——它可以从高维、复杂的生物数据中提取出低维的潜在规律,并推广到尚未观测到的情境中,做出合理且有效的推断。
因此,随着生命个体特征数据的积累、生物组学观测试验手段的进步,以及深度学习算法的发展,模拟细胞状态已经在逐渐成为现实。
三、行业验证案例:Evo2和Geneformer
事实上,利用基础模型模拟生命系统的思路已在业内得到初步验证。
美国研究机构Arc Institute开发的Evo2模型,基于9.3亿条核苷酸序列进行预训练,从而准确判断基因序列中碱基突变的可能性及其合理性,其预测结果与生物学常识一致。
哈佛大学刘晓乐教授团队开发的Geneformer模型,则基于3000万个单细胞转录组数据。在训练过程中,部分基因表达信息被随机遮蔽,模型需根据其他基因的表达情况,“补全”这些缺失的信息。
实验表明,Geneformer具备很强的还原能力。更重要的是,在实际应用中,Geneformer可以对细胞进行准确分类,并且对未见过的新类型细胞也表现出良好的泛化“类比”能力。
无论是Evo2还是Geneformer,都为生命科学研究甚至是药物研发提供了重要的上游工具。比较而言,Evo2揭示了不同物种(如人和犬)基因序列暗含的模式;而Geneformer则侧重于不同类型细胞的基因表达调控规律。这可能解释了在虚拟细胞这个层面,模型的构建一般是先基于单细胞转录组的数据(类似Geneformer)。
/03/
虚拟细胞能解决什么问题?
将带来哪些变化与价值?
既然构建虚拟细胞在技术层面是可行的,那么,虚拟细胞具体能够解决哪些现实问题?它又将如何推动生物医药产业的变革与发展?
一、理解基因调控的复杂性,预测新靶点
尽管医学研究不断取得进展,但我们对人体自身的生物学理解依然有限。
以药物研发为例,在人类约2万个基因中,仅有不到5%(约700个)与现有药物相关。这意味着,当前的药物研发可能仅触及了潜在可能性的冰山一角,还有大量靶点等待被发现。
此外,多种模式细胞(如酵母、HEK293和CHO细胞)在科学研究及发酵生产中扮演着重要角色,但它们的基因组和基因互作网络尚未得到充分解析。传统“假设—验证”的方法往往只能揭示局部基因间的相互作用,难以提供全面的洞察。
相比之下,虚拟细胞模型通过整合细胞组学数据和影像信息,提供了一种数据驱动的新视角。它能够从全局角度理解基因间复杂的相互作用,挖掘出未被发现的基因互作规律,并预测新的药物靶点。
二、有望提升药物在人体环境的有效性
现代药物研发流程,通常从试管内的初步实验开始,逐步过渡到细胞或细胞团水平筛选,再到动物模型验证,最后进入人体临床试验。
然而,人类与其他动物有显著的生物学差异,即便是与人类亲缘关系最近的灵长类动物,如猴子和猩猩,也与人类有着大约2500万年的进化距离。因此,许多在动物模型中表现出色的药物,在人体临床试验中却未能重现同样的成功。即使是那些最终获批上市的药物,其临床有效率依然面临挑战。
虚拟细胞技术为这一难题提供了新的解决方案。通过基于大量真实人体细胞数据构建和训练模型,虚拟细胞能够更准确地模拟人体细胞的生物学特性。这使得虚拟细胞模型在评估药物是否激活特定通路、诱导细胞凋亡或引发耐药性等方面,更加贴近人体实际情况,从而潜在提高药物在人体环境中的有效性。
三、引领药物研发的范式变革
近年来,新药研发的成本持续攀升。2010年,平均每款上市药物的研发投入约为10亿美元。到2023年,这一数字已升至约23亿美元。然而,药企内部研发管线的平均内部收益率(IRR)仅在5%左右,远低于其他高科技行业平均水平。
在这种背景下,寻找能够显著提升研发效率的新方法,成了生物医药行业的迫切需求。
虚拟细胞技术提供了一个全新的解决方案,它跳过冗长的基础研究阶段,利用设计虚拟实验来更高效地寻找潜在靶点,筛选对患者更有效的药物。这种方法减少了传统研发中最耗时的湿实验筛选、验证和迭代过程。
方舟投资基金(ARK Invest)在其发布的《Big Ideas 2025》报告中指出,单细胞组学与AI的结合将推动虚拟细胞的发展,并重塑药物发现的方式。
在虚拟细胞技术的加持下,短期内,湿实验的角色将从主要的数据生成手段,转变为验证虚拟细胞模拟结果的工具;长期来看,这种范式转变有望大幅缩短药物研发周期、降低成本,且适用于开发个性化药物。
/04/
虚拟细胞为何越来越受到关注?
如果拉长时间轴,虚拟细胞并不是一个全新的概念。早在1998年,就有人尝试用数学公式来表示细胞内部反应。2012年,斯坦福大学的Covert团队更是通过复杂的数理建模成功模拟了支原体从基因表达到分裂的全过程。
那为什么在当下,虚拟细胞越来越受到关注?
一、政策端推动,监管导向加速虚拟细胞落地
近年来,政策层面开始积极推动AI在生命科学中的应用,成为虚拟细胞发展的关键推动力之一。
2024年,美国总统科技顾问委员会提议开发人工智能技术以揭示细胞功能,尽管当时未明确提出“虚拟细胞”这一概念,但核心思路已指向利用AI理解细胞复杂机制的构想。
2025年4月,FDA宣布计划逐步取消单克隆抗体等药物的动物实验要求,并提出采用基于AI的毒性预测模型、细胞系及实验室环境下的类器官毒性测试作为主要手段。6月初,FDA甚至提前发布了AI工具Elsa。
这些政策可能可以解读为监管机构对AI驱动的新药研发模式的逐步认可,这为虚拟细胞技术的应用铺平道路。
二、科研领域,虚拟细胞技术正在成为关注焦点
自2023年Geneformer发布以来,学术界多次通过发布新模型、发表展望文章等方式,强调虚拟细胞对生物医药领域的赋能作用。
例如,scGPT、scFoundation、Geneformer等虚拟细胞基础模型相继在顶级学术期刊发布;陈·扎克伯格基金会科学家团队发布了关于利用AI构建虚拟细胞、赋能生物医学研究的长期愿景;《自然》杂志将“生物学基座模型(包括由AI构建的虚拟细胞模型)”列为2025年值得关注的七大关键技术之一。
三、产业端加速布局,国内外重大虚拟细胞项目纷纷启动
在产业层面,虚拟细胞展现出强劲的发展势头,大量资金开始涌入,重大项目密集落地。
在国外,诺贝尔化学奖得主David Baker教授创立的AI制药公司Xaira Therapeutics于2025年6月发布了大规模单细胞扰动测序数据集,以支持虚拟细胞研究。Recursion Pharmaceuticals等企业已经转型专注于虚拟细胞建模,探索更高效的药物开发路径。
在国内,多个国家级重大项目也在积极布局虚拟细胞领域。“十四五”国家重大科技基础设施——人类器官生理病理模拟装置于2024年在北京开工建设;2025年3月,国家重大科技基础设施人类细胞谱系大科学研究设施在广州启动建设。这些设施可能意味着中国在虚拟细胞领域的系统性布局。
四、人工智能赋能医药研发得到初步验证,为虚拟细胞技术发展带来了想象空间
过去十年间,人工智能在医药早期研发领域取得了显著进展,特别是在靶点和分子发现方面。
波士顿咨询公司的研究报告显示,截至2023年,有67款AI驱动的新药管线进入临床阶段或获批上市,其中24条管线的靶点发现得益于AI技术。此外,AI将临床前药物的研发周期缩短了30%至50%,成本降低了25%至50%,并在一期临床试验中的成功率高达80%-90%,远超行业50%的成功率这一平均水平。
下一步,作为人工智能与生命科学交叉融合的产物,虚拟细胞有望在基因调控网络解析、细胞状态预测两个关键方向发挥重要作用,并逐步融入药物研发的全流程之中。
五、得益于数据与算力成本下降,虚拟细胞开发门槛降低
构建虚拟细胞模型所需的数据和算力成本正在不断下降。
随着测序技术和检测手段的进步,获取基因组、转录组、蛋白质组等多维度数据的成本大幅降低。十年前,全基因组测序需数千美元,而如今只需几百美元即可完成。
同时,计算资源的成本也在以指数级的幅度下调。GPU、TPU等专用芯片的普及,使得处理海量生物数据变得更加高效,提升了虚拟细胞模型的精度与泛化能力。
数据和算力成本下降正在加快虚拟细胞技术的发展进程。数据生成和解析的速度加快了。成本降低加速了技术的普及,使得越来越多的研究机构和初创企业能够参与到虚拟细胞的研发中来。
整体而言,虚拟细胞正站在一个崭新的发展节点上。凭借政策支持、科研突破、产业投入以及AI技术进步,虚拟细胞有望迎来发展机遇,并对生物医药领域产生深远的影响。
/05/
虚拟细胞领域的创新机会
自2023年Geneformer发布以来,虚拟细胞这一前沿交叉领域吸引了越来越多的企业,尤其是在欧美地区,创业公司表现尤为活跃。这些公司可以大致分为两类:
第一类企业专注于构建虚拟细胞的基础模型。这类模型或许能够凭借强大的泛化能力,为多种应用场景提供支持,包括但不限于疾病诊断、药物发现和个性化医疗等。
第二类企业则选择跳过构建基础模型的步骤,聚焦具体的生物学场景,比如肿瘤药物敏感性、iPSC(诱导多能干细胞)分化路径以及胚胎干细胞发育模仿等,直接开发专门用于这些任务的特化细胞模型。
一、基础模型开发企业的创新机会
1、多模态数据协同建模:提升虚拟细胞模型的灵活性和泛化能力
当前,由于生物学数据体量的限制,虚拟细胞的基础模型主要依赖于单细胞转录组这单一模态。引入多模态数据(如细胞图像、单细胞空间组、表观组和蛋白组)进行协同建模,是提升虚拟细胞模型灵活性和泛化能力的关键创新方向。
通过整合多种类型的数据,虚拟细胞模型能够更全面地捕捉细胞状态的变化及其复杂的生物学背景。在构建这些多模态基础模型时,单细胞水平上的数据“对齐”效率成为企业的核心竞争力。
2、通用基础模型的应用优势
从应用角度来看,通用基础模型基于大量不同细胞类型和多种组学数据进行预训练,拥有广泛的知识基础。这种广泛的预训练赋予了模型强大的泛化能力,使得其衍生出的特化模型能够在少量特定任务数据的支持下,依然实现较高的任务完成度。
实际上,现有研究已证实,在诸如细胞分类、药物敏感性预测以及基因扰动下的细胞状态预测等任务中,基于通用模型开发的特化模型比仅针对单一任务设计的模型表现更好。
3、基础模型开发企业需要与第三方加强合作
随着药物研发过程中细分场景和具体任务种类的增加及复杂度的提升(例如肿瘤微环境中免疫细胞与肿瘤细胞间的相互作用研究),具备基础模型技术的企业正逐渐受到业界的关注。
在生物医药领域,特定场景和任务相关数据往往集中在药物研发企业和科研单位手中。推动基础模型开发企业与药企及科研院所之间的合作,不仅有助于验证基础模型的迁移泛化能力、促进模型迭代,也是短期内基础模型开发者的一个自然选择。
4、长期发展策略:建立数据壁垒与自主验证能力
长远来看,为了在细分领域建立自己的数据壁垒、获得先发优势,基础模型开发企业需要逐步构建自主验证模型预测的能力,并转向提供分子或细胞层面的合作或自建管线。这不仅是企业在竞争中脱颖而出的关键,也是实现更高价值转化的重要步骤。
5、典型案例:Recursion Pharmaceuticals
在虚拟细胞基础模型领域,Recursion Pharmaceuticals是一个典型代表。该公司整合了路径模型、蛋白模型和原子模型,支持自有管线的临床研发。通过AI分析复杂的生物通路,构建详细的细胞网络图谱,有助于识别疾病机制和治疗靶点,并模拟疾病状态下的细胞行为,
二、特化模型垂直领域的创新机会
特化模型专注于某一类特定细胞或应用场景的训练,凭借特定类型的数据优势,在特定任务上的表现可能不亚于通过基础模型衍生得到的特化模型。这种开发模式可能适合那些在垂直领域,已经有明确产业需求验证和数据积累的企业。
1、发展策略:利用自有数据优势和专业知识,实现从数据到应用的闭环
特化模型的创新机会在于“纵向”发展,即利用企业自有数据优势和深厚的专业知识,实现从数据到应用的闭环。
例如,在免疫治疗领域拥有大量临床测序数据的企业,可以优先开发针对免疫T细胞的虚拟细胞特化模型,以支持新免疫治疗靶点的发现;专注于肿瘤组学检测的企业,则可以根据患者测序结果,训练肿瘤细胞的特化模型,加速个性化肿瘤治疗药物的筛选甚至自建管线的开发。
2、典型案例:Asimov
一个典型的案例是位于美国波士顿的生物科技公司Asimov。这家公司通过改造CHO、HEK293等工程细胞,为药企提供药物或疫苗生产优化服务。
Asimov拥有庞大的遗传元件库和多组学测量系统,并基于此开发了一个全栈基因线路设计平台,用于活细胞编程。通过该平台进行虚拟基因线路改造,Asimov能够预测工程细胞的生产效率,并将优化后的工程细胞投入湿实验验证。目前,Asimov的目标是达到7-11g/L的稳定产量,如果交付的改造后CHO细胞产率低于5g/L,公司将免费提供这些细胞株给客户。
三、小结
方舟投资基金创始人凯茜·伍德(Cathie Wood,有“木头姐”之称)曾预测,未来五年内,虚拟细胞基础模型的训练成本将下降超过两个数量级。这意味着更多的企业将有机会进入这一领域,选择从基础模型到特化模型的AI虚拟细胞开发路径,包括成熟药企在内的更多参与者也将入局。
以终为始地看,在细分场景下的特化模型开发能力和表现,可能是形成竞争优势的关键。对于初创企业而言,特化模型的开发能力、建立自有数据壁垒、以及以细胞或分子等实际产品作为交付目标,可能是早期三个重要的抓手。
放眼未来,在人工智能与生命科学交叉的领域,虚拟细胞将成为行业的前沿和下一个里程碑。
注:文/谢达,文章来源:峰瑞资本(公众号ID:freesvc),本文为作者独立观点,不代表亿邦动力立场。
文章来源:峰瑞资本