本文介绍了 FireRedASR2S,这是一个由小红书(Xiaohongshu)开发的工业级全栈自动语音识别系统。该系统集成了 ASR(语音识别)、VAD(端点检测)、LID(语种识别)和 Punc(标点预测)四个核心模块,并在各项基准测试中均达到了 SOTA 性能。
TL;DR
小红书 Super Intelligence 团队发布了 FireRedASR2S,这是一个“全垒打”式的自动语音识别系统(All-in-One)。它不仅能把语音转成文字,还一站式解决了 VAD(检测)、LID(语种识别)、ASR(识别)和 Punctuation(标点) 这四大痛点。
- 性能爆炸:ASR 在普通话和 19 种方言上全面超越了 Doubao-ASR、Qwen3-ASR 等强力基准。
- 极其轻量:VAD 模块仅有 0.6M 参数,却在跨语种检测上拿到了第一。
- 全场景覆盖:支持 100 多种语言、20 多种方言,甚至能精准识别歌唱内容。
1. 痛点:为什么“拼凑”的系统不可靠?
在工业界部署 ASR 时,工程师往往面临一个尴尬境地:从 A 家拿 VAD 做分段,用 B 家的 Open Source 做识别,再找 C 家的插件补标点。这种“弗兰肯斯坦”式的流水线会导致:
- 误差累积:VAD 分得不准,后面 ASR 全错。
- 接口混乱:不同模型输入输出不统一,运维维护成本极高。
- 鲁棒性差:现有的 VAD 很多是基于 ASR 强制对齐训练的“衍生品”,在背景音乐强、唱歌音频等 UGC 场景下表现拉跨。
2. FireRedASR2S 的整体架构
FireRedASR2S 采用了一个解耦但统一的流水线架构。音频流进入后,依次经过四个核心站点的处理:

- FireRedVAD:负责识别什么时候有人说话,过滤掉纯音乐和底噪。
- FireRedLID:识别这是哪种语言?如果是中文,是哪里的方言?
- FireRedASR2:核心识别引擎,提供 LLM 增强版(追求极致准确)和 AED 版(追求性能平衡)。
- FireRedPunc:给转写的文字加上标点符号,变成人类可读的段落。
3. 核心能力拆解
3.1 ASR:20 万小时数据的威力
FireRedASR2 相比前代最大的提升在于 Data Scaling。通过将有监督训练数据从 7 万小时提升到 20 万小时,涵盖了海量的普通话、方言、中英混读以及唱歌场景。

- AED 变体:采用熟悉的 Conformer-Transformer 架构,亮点是增加了一个后验的 CTC 分支。这个分支在模型训练完后单独 fine-tune,专门用来生成精准的时间戳(Timestamps),解决了 AED 模型长期以来“有字无时”的尴尬。
- LLM 变体:利用大模型的语言理解能力作为解码器,在复杂上下文和口语化表达中具有更好的“语感”。
3.2 VAD:拒绝弱监督,回归人工标注
FireRedVAD 的一个关键 Insight 是:不要用 ASR 模型自动产生的标签来训练 VAD。作者使用了数千小时纯人工标注的声学事件数据(包含 Speech, Singing, Music)。
- DFSMN 架构:极致轻量(0.6M 参数),支持非流式和流式推理。
- mVAD(多标签 VAD):不仅能检测声音,还能由于是人工多标签训练,能同时输出说话、唱歌、背景音乐的概率。
3.3 LID:层次化识别的智慧
识别方言比识别语种难得多。FireRedLID 采用了一个两阶段的隐式解码策略:先预测是大语种(如 zh, en),如果判定为 zh,再预测细分的方言。这种 Hierarchical 的建模方式大大降低了任务的复杂度。
4. 实验战绩
在包含 AISHELL、WenetSpeech 在内的 24 个公开测试集上,FireRedASR2S 展现了统治级的实力:

- 方言之王:在 19 个方言测试集上,FireRedASR2-LLM 的 CER 仅为 11.55%,显著拉开了与业界竞品的差距。
- VAD 标杆:在 FLEURS-VAD 榜单上,F1 分数达到 97.57%,而传统的 WebRTC-VAD 仅有约 52.3%。
5. 总结与启发
FireRedASR2S 的成功主要归功于两点:
- 工业级的严谨性:VAD 坚持用人工标注数据,这在追求规模化的模型训练中显得难能可贵。
- 模块化的灵活性:虽然是 All-in-One 架构,但每个模块(VAD/LID/Punc)都可以拆出来独立部署。
局限性:虽然目前覆盖了 100+ 语种,但主要的性能优化仍倾向于中英方言。未来如果能将 LLM 的推理开销进一步降低,在大模型端到端语音交互(如 GPT-4o 模式)中将具有更大的想象空间。
