粤语自动语音识别数据集中的数据如何预处理和分词？

为何粤语语音识别需要特殊的预处理和分词？

粤语是一种低资源语言，标注语音数据有限，导致标准自动语音识别（ASR）方法效果不佳。该语言存在大量同音字（音同义异）及罕见词汇，这些词汇容易被依赖大量数据的端到端模型误识别。一项研究发现，在波束搜索解码过程中，将罕见词与其常见同音字关联的同音扩展方法，结合统一书写（合并繁体、简体等异体字），可使领域内测试的字错误率（CER）绝对降低5%，领域外测试降低18%[2]。这表明，融入语言学知识（如同音词典）的预处理对粤语ASR至关重要。

此外，香港粤语常混合粤语与英语（语码转换），这给建模带来了挑战。研究人员开发了一种粤英差异建模单元，以缩小两种语言之间的差距，并增设语言识别子任务来区分它们，根据重评分策略的不同，准确率提升了10%至49%[5]。这意味着分词必须考虑双语切换，而不仅仅是单语言字符。

研究人员如何扩充粤语数据集并预训练模型？

由于粤语语音数据稀缺，数据增强成为关键的预处理步骤。一种方法利用大语言模型（LLM）和文本转语音（TTS）技术，从普通话数据生成合成粤语文本与语音，构建普通话-粤语平行数据库。结合粤语知识库的检索增强生成（RAG）方法提升了生成文本的多样性与准确性，并通过数据过滤器确保质量。该增强数据对微调粤语语音识别（ASR）及翻译模型效果显著[4]。

另一种策略是无监督的语言特定预训练。研究人员收集了2000小时未标注的粤语音频，并基于这些数据预训练了一个wav2vec2.0模型。尽管该粤语专用模型使用的数据量仅为多语言XLSR-53模型（基于128种语言、56000小时数据训练）的28分之一，但其识别性能相对提升了6%。当采用RNN-T和CTC损失函数进行微调后，该模型在开源粤语测试集上的字符错误率（CER）为15.57%，而基于Conformer的端到端基线模型则为30.18%[3]。这表明，即便使用中等规模的未标注粤语数据进行领域特定预训练，也能显著提升性能。

对于粤语，哪些分词单元和微调方法效果最佳？

粤语自动语音识别（ASR）中的分词通常以字符为单位进行，但研究人员也探索了专门的单元。针对混合语码的香港粤语，研究者构建了一种粤英差异建模单元，以处理两种语言在语音和书写系统上的差异[5]。该单元结合了一种多任务重打分策略——该策略联合训练语言识别与ASR——显著提升了识别准确率。

在微调过程中，参数高效方法（如LoRA低秩适配）对粤语处理效果显著。一项研究表明，仅对Whisper-tiny模型1.6%的权重在Common Voice zh-HK数据集上进行微调，便将字符错误率从49.5%降至11.1%，几乎与全量微调（10.3%）持平，同时训练内存和计算成本降低约10倍。随后，该模型被量化至INT8格式（60 MB），可在边缘设备上实现快速推理，在MacBook Pro M1 Max CPU上达到0.20的实时因子[1]。这表明，通过精细的分词处理和高效的微调方法，即使在硬件资源有限的情况下，也能实现实用的粤语语音识别系统。

本文引用的文献

LoRA-INT8 Whisper：面向边缘设备的低成本粤语语音识别框架

在粤语Common Voice数据集上对Whisper-tiny进行LoRA微调后，仅使用1.6%的权重便将字符错误率（CER）从49.5%降至11.1%，而INT8量化使得在MacBook CPU上实现了5倍实时推理速度。

2025 · Lusheng Zhang, Shie Wu, Zhongxun Wang · Sensors (Basel, Switzerland)

原文

通过同音扩展与统一书写提升低资源粤语语音识别中的罕见词识别能力

通过将语言学知识融入解码过程，同音字扩展与统一书写使粤语自动语音识别（ASR）的字错误率绝对降低了5%（领域内）和18%（领域外）。

2022 · HoLam Chung, Junan Li, Pengfei Liu, Wai-Kim Leung, Xixin Wu, Helen Meng · ISCSLP

原文

粤语语音识别的进展：一种语言特定的预训练模型与RNN-T损失

一个在2000小时无标注粤语数据上预训练的wav2vec2.0模型，相比XLSR-53（56000小时）实现了6%的相对性能提升，词错误率（CER）达到15.57%，而conformer基线模型的CER为30.18%。

2023 · Junyun Guan, Minqiang Xu, Xuan Xuan, Lei Fang, Yihao Chen, Liang He · 2023 5th International Academic Exchange Conference on Science and Technology Innovation (IAECST)

原文

通过检索增强生成与语音合成技术扩充普通话至粤语语音数据库

使用大语言模型的检索增强生成技术，结合语音合成增强的普通话-粤语平行数据，优化粤语语音识别与翻译模型的微调效果。

2025 · Fan Liu, Cheng Gong, Boyu Zhu, Ruihao Jing, Chunyu Qiang, Tianrui Wang, Xiao-Lei Zhang, Xuelong Li · INTERSPEECH

原文

HKSR：基于多任务重打分策略的香港粤语语码转换语音识别研究

一个粤语-英语差异建模单元与多任务重打分策略，将香港粤语中语码转换语音的ASR准确率提升了10%至49%。

2022 · Yuting Huang, Bi Zeng, Zhentao Lin, Jia Cai · ICCT

原文