FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

[Tech Report] FireRedASR2S：小红书开源工业级全栈 ASR 系统，全方位突破 SOTA

Summary

Problem

Method

Results

Takeaways

Abstract

本文介绍了 FireRedASR2S，这是一个由小红书（Xiaohongshu）开发的工业级全栈自动语音识别系统。该系统集成了 ASR（语音识别）、VAD（端点检测）、LID（语种识别）和 Punc（标点预测）四个核心模块，并在各项基准测试中均达到了 SOTA 性能。

TL;DR

小红书 Super Intelligence 团队发布了 FireRedASR2S，这是一个“全垒打”式的自动语音识别系统（All-in-One）。它不仅能把语音转成文字，还一站式解决了 VAD（检测）、LID（语种识别）、ASR（识别）和 Punctuation（标点） 这四大痛点。

性能爆炸：ASR 在普通话和 19 种方言上全面超越了 Doubao-ASR、Qwen3-ASR 等强力基准。
极其轻量：VAD 模块仅有 0.6M 参数，却在跨语种检测上拿到了第一。
全场景覆盖：支持 100 多种语言、20 多种方言，甚至能精准识别歌唱内容。

1. 痛点：为什么“拼凑”的系统不可靠？

在工业界部署 ASR 时，工程师往往面临一个尴尬境地：从 A 家拿 VAD 做分段，用 B 家的 Open Source 做识别，再找 C 家的插件补标点。这种“弗兰肯斯坦”式的流水线会导致：

误差累积：VAD 分得不准，后面 ASR 全错。
接口混乱：不同模型输入输出不统一，运维维护成本极高。
鲁棒性差：现有的 VAD 很多是基于 ASR 强制对齐训练的“衍生品”，在背景音乐强、唱歌音频等 UGC 场景下表现拉跨。

2. FireRedASR2S 的整体架构

FireRedASR2S 采用了一个解耦但统一的流水线架构。音频流进入后，依次经过四个核心站点的处理：

系统总架构图

FireRedVAD：负责识别什么时候有人说话，过滤掉纯音乐和底噪。
FireRedLID：识别这是哪种语言？如果是中文，是哪里的方言？
FireRedASR2：核心识别引擎，提供 LLM 增强版（追求极致准确）和 AED 版（追求性能平衡）。
FireRedPunc：给转写的文字加上标点符号，变成人类可读的段落。

3. 核心能力拆解

3.1 ASR：20 万小时数据的威力

FireRedASR2 相比前代最大的提升在于 Data Scaling。通过将有监督训练数据从 7 万小时提升到 20 万小时，涵盖了海量的普通话、方言、中英混读以及唱歌场景。

FireRedASR2 模型架构

AED 变体：采用熟悉的 Conformer-Transformer 架构，亮点是增加了一个后验的 CTC 分支。这个分支在模型训练完后单独 fine-tune，专门用来生成精准的时间戳（Timestamps），解决了 AED 模型长期以来“有字无时”的尴尬。
LLM 变体：利用大模型的语言理解能力作为解码器，在复杂上下文和口语化表达中具有更好的“语感”。

3.2 VAD：拒绝弱监督，回归人工标注

FireRedVAD 的一个关键 Insight 是：不要用 ASR 模型自动产生的标签来训练 VAD。作者使用了数千小时纯人工标注的声学事件数据（包含 Speech, Singing, Music）。

DFSMN 架构：极致轻量（0.6M 参数），支持非流式和流式推理。
mVAD（多标签 VAD）：不仅能检测声音，还能由于是人工多标签训练，能同时输出说话、唱歌、背景音乐的概率。

3.3 LID：层次化识别的智慧

识别方言比识别语种难得多。FireRedLID 采用了一个两阶段的隐式解码策略：先预测是大语种（如 zh, en），如果判定为 zh，再预测细分的方言。这种 Hierarchical 的建模方式大大降低了任务的复杂度。

4. 实验战绩

在包含 AISHELL、WenetSpeech 在内的 24 个公开测试集上，FireRedASR2S 展现了统治级的实力：

ASR 性能对比

方言之王：在 19 个方言测试集上，FireRedASR2-LLM 的 CER 仅为 11.55%，显著拉开了与业界竞品的差距。
VAD 标杆：在 FLEURS-VAD 榜单上，F1 分数达到 97.57%，而传统的 WebRTC-VAD 仅有约 52.3%。

5. 总结与启发

FireRedASR2S 的成功主要归功于两点：

工业级的严谨性：VAD 坚持用人工标注数据，这在追求规模化的模型训练中显得难能可贵。
模块化的灵活性：虽然是 All-in-One 架构，但每个模块（VAD/LID/Punc）都可以拆出来独立部署。

局限性：虽然目前覆盖了 100+ 语种，但主要的性能优化仍倾向于中英方言。未来如果能将 LLM 的推理开销进一步降低，在大模型端到端语音交互（如 GPT-4o 模式）中将具有更大的想象空间。

项目开源地址：GitHub - FireRedTeam/FireRedASR2S

Find Similar Papers

Try Our Examples

查找最近其他结合大语言模型 (LLM) 进行自动语音识别 (ASR) 且支持多方言识别的论文。
哪篇论文最早提出了 DFSMN 架构，FireRedVAD 在其基础上进行了哪些针对流式处理的优化？
有哪些研究探讨了将层次化标签解码 (Hierarchical Decoding) 应用于大规模语种识别任务以提高方言区分度的方法？

Contents

[Tech Report] FireRedASR2S：小红书开源工业级全栈 ASR 系统，全方位突破 SOTA

1. TL;DR

2. 1. 痛点：为什么“拼凑”的系统不可靠？

3. 2. FireRedASR2S 的整体架构

4. 3. 核心能力拆解

4.1. 3.1 ASR：20 万小时数据的威力

4.2. 3.2 VAD：拒绝弱监督，回归人工标注

4.3. 3.3 LID：层次化识别的智慧

5. 4. 实验战绩

6. 5. 总结与启发