MOSS-TTS Technical Report

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

MOSS-TTS Technical Report

[Tech Report] MOSS-TTS：回归自回归本质，打造百万小时级语音生成基座

总结

问题

方法

结果

要点

摘要

本文推出了 MOSS-TTS，这是一个基于“离散音频 Token + 自回归建模 + 大规模预训练”范式的语音生成基座模型。该系统包含高性能分层离散分词器 MOSS-Audio-Tokenizer，并对比了 Delay-Pattern（侧重长文本与可控性）和 Local-Transformer（侧重音色保真与低延迟）两种架构，实现了 SOTA 级的零发语音克隆（Zero-shot Voice Cloning）与超长文本合成。

TL;DR

复旦大学与 SII-OpenMOSS 团队发布的 MOSS-TTS，标志着开源语音基座模型向“LLM 化”迈出了坚实的一步。它摒弃了复杂的流水线堆砌，通过 离散 Token + 纯 AR（自回归）建模，在百万小时级数据上训练出了具备零样本克隆（Zero-shot Cloning）、精确时长控制、拼音/音素级编辑以及小时级长音频生成的强大模型。

核心洞察：为什么要回归“极简主义”？

当前的 TTS 领域正处于技术路线的十字路口：一边是追求极致推理速度的 NAR（非自回归）或流匹配（Flow-matching）模型，另一边是追求扩展性（Scaling）的 AR 分词模型。

MOSS 团队认为，要实现真正的“语音基座”，必须解决扩展性（Scalability）问题。他们避开了使用 HuBERT 等外部“语义教师”的传统路子，而是构建了一个端到端优化的音频分词器。这种做法的直觉在于：如果 Token 足够好，语音生成就纯粹变成了 Token 预测问题，可以直接复用 LLM 成熟的 Scaling Law。

技术架构剖析

1. MOSS-Audio-Tokenizer：更强的底座

分词器采用 RVQ-GAN 框架，但其核心是纯因果 Transformer（而非 CNN）。它将 24kHz 音频压缩至极低的 12.5 fps，这意味着进行 AR 建模时，序列压力大大降低。

变量比特率：支持 0.125 到 4 kbps 的动态调整。
统一表示：通过 ASR 辅助任务，让离散 Token 在保留听感的同时，天然携带语义信息。

模型架构图 图 1：MOSS-Audio-Tokenizer 架构，展示了因果 Encoder/Decoder 与分层 RVQ

2. 双重 AR 架构：性能与效率的权衡

MOSS-TTS 并没有只提供一个模型，而是针对不同场景设计了两种架构：

Delay-Pattern (MOSS-TTS)：通过时间偏移处理 RVQ 层次，结构极简，极其适合**长文本（Long-context）**生成和高并发部署。
Local-Transformer：在主模型产出 Latent 后，增加一个局部小 Transformer 进行帧内解码。实验证明，这种架构在音色相似度上表现更强，尤其在 1.7B 小参数下就能 PK 掉许多 7B 模型。

架构对比图 图 2：左侧为 Delay Pattern 模式，右侧为 Local Transformer 模式

数据流水线：从“脏数据”到“炼丹炉”

模型能否 generalization 全看数据。MOSS 团队构建了涵盖播客、有声书、影视等百万小时级的流水线。其关键在于 Stages 3 & 4 的联合过滤：不再只看 ASR 结果，而是通过 LLM 诊断音频与文本的语言一致性、时长比例合理性。这种“交叉验证”确保了即便是在野外（In-the-wild）抓取的数据，也能提供高质量的监督信号。

实验战绩与深度分析

在 Seed-TTS-eval 基准测试中，MOSS-TTS 展现了惊人的 SIM（Speaker Similarity）得分：

Continuation 模式：相比于直接 Clone，利用上下文进行“语音续写”能显著提升音色稳定性。
时长控制：通过在 Prompt 中注入 Token Count，模型实现了平均误差 < 0.8% 的精确度。这意味着对于广告配音等对节奏高度敏感的任务，MOSS-TTS 已经是 Ready 状态。

实验结果对比 表 1：MOSS-TTS 在 Seed-TTS 测评集上的表现，SIM 值在开源模型中处于领先位置

长音频生成的极限挑战

报告特别探讨了生成长达一小时音频时的表现。结果显示，虽然字准率（CER）能维持稳定，但**音色漂移（Speaker Drift）**是当前的主要瓶颈。模型在生成半小时后，音色会逐渐偏离原始 Prompt。

总结与启示

MOSS-TTS 的成功验证了：只要 Tokenizer 够强，数据规模够火，自回归就是王道。

该工作的局限性在于：英语环境下的长时一致性仍弱于中文；多语种（如日韩）的 Zero-shot 效果仍有提升空间。未来，如何通过强化学习（RL）或更长的 Context Window 来锁定音色，将是语音生成领域下一个决战点。

关键词：MOSS-TTS, Audio LLM, Zero-shot Voice Cloning, RVQ, Speech Foundation Model

发现相似论文

试试这些示例

查找最近其他试图在语音生成中通过改进离散分词器（Audio Tokenizer）来解决音色保真度与语义一致性冲突的论文。
哪篇论文最早提出了 Delay-Pattern（延迟模式）处理多层 RVQ 码本的方法，MOSS-TTS 在此基础上做了哪些针对长文本的优化？
有哪些研究探讨了将类似 MOSS-TTS 的自回归音频建模方法扩展应用到多模态对话系统（如 GPT-4o 风格的实时语音交互）中？

[Tech Report] MOSS-TTS：回归自回归本质，打造百万小时级语音生成基座

1. TL;DR

2. 核心洞察：为什么要回归“极简主义”？

3. 技术架构剖析

3.1. 1. MOSS-Audio-Tokenizer：更强的底座

3.2. 2. 双重 AR 架构：性能与效率的权衡

4. 数据流水线：从“脏数据”到“炼丹炉”

5. 实验战绩与深度分析

5.1. 长音频生成的极限挑战

6. 总结与启示