本文推出了 AlphaFlowTSE,一种基于条件 AlphaFlow 的单步(One-shot)生成式目标发言人提取(TSE)框架。该方法通过在复数 STFT 域学习混合语音到目标语音的平均速度传输,实现了仅需 1 次网络推理(NFE=1)的高保真语音提取,并在 Libri2Mix 和 REAL-T 数据集上达到 SOTA 水平。
TL;DR
在目标发言人提取(Target Speaker Extraction, TSE)领域,生成式模型(Generative Models)虽然在音质和 naturalness 上更胜一筹,但其沉重的迭代采样(Multi-step Sampling)一直是实时化的死穴。AlphaFlowTSE 通过一种无需 JVP 运算的 AlphaFlow 训练机制,实现了从混合语音到目标语音的“单步直连”,不仅在标准测试集上刷高了 SI-SDR 和 PESQ,更在真实复杂对话场景(REAL-T)中展示了惊人的鲁棒性。
核心速览:为什么我们需要“单步”生成?
传统的辨别式方法(Discriminative)虽然快,但在严重干扰或领域偏移下容易产生伪影。生成式模型(如 Diffusion 或 Flow Matching)能更好地建模目标语音分布。然而,现有的流匹配(Flow Matching)TSE 方案通常涉及:
- 高 NFEs (Number of Function Evaluations):需要多次前向计算。
- 坐标依赖性:依赖于对混合比例(Mixing-ratio, MR)的预测来确定采样的起点。
AlphaFlowTSE 的出现,旨在彻底解决这两个痛点,让生成式 TSE 像 Mask 方法一样快,同时保留生成模型的音质优势。
痛点深挖:混合比例(MR)的“魔咒”
之前的单步工作(如 AD-FlowTSE)假设我们可以预测混合语音在“背景-目标”轨迹上的位置(τ)。但在现实场景中,这种坐标预测非常脆弱。一旦 τ 预测偏差,整个传输轨迹就会南辕北辙。
作者给出的 Insight 是:与其预测一个不可靠的坐标起点,不如直接学习从“混合状态 (t=0)”到“目标状态 (1=1)”的平均速度(Mean Velocity)。这就引出了本文的核心方法论。
方法论详解:从 Flow Matching 到 AlphaFlow
1. 确定性轨迹构建
AlphaFlowTSE 在复数 STFT 域定义了一条确定性的线性插值轨迹: 其中 是观测到的混合频谱, 是目标频谱。
2. UDiT 架构与条件化
模型采用了 UDiT (U-Net style Diffusion Transformer)。不同于普通的 Transformer,它通过自适应层归一化(AdaLN)将开始时间 和区间长度 注入模型,使其具备处理不同传输区间的能力。

3. JVP-Free AlphaFlow 训练
这是本文最精妙的地方。为了让模型在单步推理时保持准确,训练分为两个分支:
- 局部轨迹匹配 (FM):在 的对角线上锚定瞬时速度,确保梯度的良定性(Well-conditioned)。
- 区间一致性 (MF):使用“老师-学生”训练模式。学生模型预测长区间 ,老师模型则在中间点 给出预测指导。通过 JVP-free 的设计,避免了复杂的二阶导数运算,极大提升了训练稳定性。
实验与结果:全方位碾压
1. 这一届单步选手中的最强者
在 Libri2Mix 测试中,AlphaFlowTSE 展现了其作为单步模型的统治力。
- PESQ: 3.27 (Clean) / 2.28 (Noisy)
- SI-SDR: 19.17 dB (Clean) —— 相比之前的 MeanFlowTSE 提升了近 0.4 dB。

2. 真实对话场景的“卸载灵活性”
在 REAL-T 真实场景下的测试结果非常有趣:当禁用混合比例预测器(MR predictor)时,AD-FlowTSE 和 MeanFlowTSE 的性能雪崩(SI-SDR 狂降 10-20 dB),而 AlphaFlowTSE 的性能几乎纹丝不动(仅下降 0.67 dB)。这说明 AlphaFlow 训练出的模型真正理解了全局传输,而不仅仅是依赖特定的坐标。

深度洞察与总结
AlphaFlowTSE 的核心贡献在于将生成式任务的训练目标与推理过程进行了高度对齐。
- 总结 (Takeaway):它证明了高质量的 TSE 并不一定需要繁琐的迭代采样。通过在 STFT 域内优化区间一致性,单步生成不仅可以实现 SOTA 音质,还能在工程落地时完全抛弃复杂的辅助预测模块。
- 局限性:尽管其说话人相似度(SpkSim)保持得不错,但在极端噪声环境下,由于单步生成的“信息压缩”,相比百步采样的全量 Diffusion 在极精细的纹理还原上可能仍有微小差距。
- 未来展望:这种单步生成框架非常适合集成到端到端的 ASR 前端或实时助听器设备中,其 JVP-free 的特性也意味着它更容易扩展到更大的参数规模或多模态场景。
注:本文基于 Interspeech 2025 投稿论文撰写,代表了当前单步生成式语音处理的最前沿进展。
