本文推出了 SCALE,一种专为单细胞扰动预测设计的端到端基础模型。该方法将扰动预测建模为学习受控细胞群与扰动细胞群之间的“条件运输(Conditional Transport)”,并基于 BioNeMo 框架实现了高达 12.51 倍的训练加速,在 Tahoe-100M 等大型数据集上达到 SOTA 水平。
TL;DR
虚拟细胞(Virtual Cell)研究的核心挑战在于:如何在无法同时观察同一细胞扰动前后状态的前提下,准确预测遗传或化学干预带来的群体结构变化?本文提出的 SCALE 通过分层集合编码器与终点对齐条件流运输(Endpoint-aligned Conditional Transport),成功在 100M 规模的单细胞图谱上实现了精度与效率的双重飞跃,显著提升了生物学敏感指标(如 DE Overlap)。
核心定位
SCALE 不仅仅是一个更深的神经网络,它通过对底层基础设施(BioNeMo)、**建模逻辑(运筹学中的运输问题)和评估体系(生物保真度)**的协同设计,确立了大规模虚拟细胞建模的新基准。
痛点深挖:为什么 MSE 是个“陷阱”?
在单细胞扰动预测领域,长期存在一个误区:过度追求重建误差(MSE)的最小化。
- 均值效应陷阱:为了获得最低的 MSE,模型倾向于预测一种“安全的平均表达”,但这会抹除具有生物学意义的高频扰动信号。
- 非配对数据的本质:由于测序的破坏性,我们永远无法得到单细胞级别的 Ground Truth 轨迹。强制进行点对点回归会导致模型学习到实验噪声而非生物学响应。
- 扩展性瓶颈:面对像 Tahoe-100M 这样拥有 1.1 亿细胞规模的图谱,传统训练流水线在 I/O 和吞吐量上难以为继。
方法论详解:SCALE 的三项核心创新
1. 分层集合感知编码器 (Hierarchical Set-Aware Encoder)
SCALE 放弃了通用的 Autoencoder,转而采用两级建模逻辑:
- 胞内(Intra-cell):利用 LLaMA 风格的注意力机制,学习基因间的依赖关系。
- 胞间(Inter-cell):引入 DeepSets 聚合层,捕捉细胞群体(Population)的全局特征,确保模型既能处理细胞群的无序性(Permutation Invariance),又能通过全局 Context 增强单细胞表示。
图 1: SCALE 的整体架构。左侧展示了从控制组到扰动组的条件运输逻辑,右侧展示了分层编码与 BioNeMo 基础设施整合。
2. 终点对齐的逻辑:从 Flow 演进到 JiT
既然中间轨迹不可测,SCALE 提出直接建模起始点和终点。其 JiT (Just-in-Time) 参数化方案 将扰动预测简化为两个观测终点间的线性运输路径。实验发现,直接预测终点状态(x-pred)比预测中间速度场(v-pred)更具鲁棒性,因为它直接对齐了评估目标。
3. 条件注入与种子注意力
为了处理诸如药物浓度、细胞类型、批次效应等复杂的条件,SCALE 采用了 Seed Attention(图 2b)。通过一个可学习的种子向量从条件 Embedding 中动态提取最关键的特征,并注入到变换器的每一层中。
图 2: SCALE 的模块细节。详细展示了层次化编码器与基于 JiT 的条件速度场网络。
实验与结果:真实的生物学“战绩”
在多项严苛的基准测试中,SCALE 的表现令人瞩目:
- Tahoe-100M(化学扰动):PDCorr(扰动效果相关性)达到 0.953。
- PBMC(细胞因子干预):DE Overlap(差异表达基因重叠度)领先 STATE 超过 10%。
- 工程效率:利用 NVDIA BioNeMo 优化,模型训练吞吐量相比 STATE 提升了 12.51 倍。
表 1: 在三个核心基准上的各项指标对比。可以观察到 SCALE 在生物相关性指标上处于领先地位。
深度洞察:为什么 SCALE 更有效?
消融实验(Ablation Study)给出了三个关键结论:
- 自适应聚合是必需的:简单的 Mean Pooling 会导致性能断崖式下跌,表明扰动信号具有异质性,必须动态加权。
- 终点监控优于路径预测:由于大多数单细胞扰动引起的位移相对较小且结构化,直接回归目标状态比拟合概率路径更稳定。
- 混合先验的重要性:引入高斯噪声辅助设计起始分布,可以有效防止模型学习到“恒等映射”的简捷解(Shortcut),迫使模型学习真实的扰动规律。
局限性与展望
虽然 SCALE 在现有协议下达到了 SOTA,但作者指出,目前的虚拟细胞评估协议(Cell-Eval)对预处理细节极为敏感,行业急需一个更标准化、透明的 Pipeline。未来,SCALE 类模型有望在药物筛选(In silico Chemical Screening)和组合遗传扰动(Genetic Interaction)预测中发挥基石作用。
结论
SCALE 证明了:要建立有用的虚拟细胞基础模型,必须超越纯粹的生成数学。只有将运筹学的运输直觉与可大规模扩展的工程架构结合,才能真正捕获生命系统对外部干预的深层响应规律。
