本文提出了一种针对韩国语境的轻量化 LLM 优化方案——Token Pruning(标记剪枝)。通过移除多语言模型中与目标语言无关的词表及嵌入参数,在 Qwen3、Gemma-3 和 Llama-3 等 SOTA 模型上实现了显著的显存节省,并大幅提升了生成稳定性(WPR 指标)和翻译质量。
TL;DR
在追求“万能”的多语言 LLM 时代,我们往往忽略了冗余词表带来的副作用。本文深入探讨了 Token Pruning(标记剪枝) 这一技术,通过剔除无关语言的嵌入参数,不仅让模型更省显存,更一举解决了 LLM 在特定语言生成时的“语言混淆”顽疾。在 Qwen3 和 Llama-3 上的实验证明,这种“少即是多”的哲学在韩国语 NLP 任务中取得了 SOTA 级的性能提升。
1. 痛点:多语言模型的“多而无用”
现代 LLM 如 Llama-3 或 Qwen 为了覆盖全球语言,其词表(Vocabulary)动辄包含 10 万个以上的 Token。然而,对于一个专注于韩国本土市场的应用而言,词表中大量的泰文、阿拉伯文甚至罕见的特殊符号都是纯粹的“噪音”。
这种冗余带来了两个核心问题:
- 显存浪费:嵌入层(Embedding Layer)占据了模型总参数量的显著比例。
- 语言混淆 (Language Confusion):由于不同语言在隐空间中存在重叠,模型在生成韩文时可能由于噪声干扰而蹦出其他语言的词汇。
2. 核心机理:语言感知过滤
作者提出的方法并非简单的截断,而是一套严谨的重构流程:
- 识别:基于 Unicode 编码(如 Hangul 区域)对 Token 进行分类。
- 精简:构建只有英文+韩文(EnKo)或英文+韩文+中文(EnKoZh)的目标词表。
- 重映射:物理重排嵌入矩阵(Embedding Matrix)和输出投影层(Output Projection Layer),确保索引连续。
上表展示了在不同词表配置下,各主流模型在 KMMLU(综合能力)和 CLIcK(文化倾向)上的表现。可见剪枝后的模型在性能上不仅没有倒退,甚至在部分任务中小幅领先。
3. 深度洞察:为什么剪枝反而更强?
3.1 消除语言混淆
这是本文最惊艳的发现。通过对比 WPR(Word-level Pass Rate) 指标,研究者发现 Qwen3-4B 在原始状态下经常出现生成不稳定,而剪枝后的 EnKo 版本其稳定性近乎 100%(>0.99)。
Δ WPR 的显著提升证明了缩小词表搜索空间能有效过滤生成噪声。
3.2 跨语言表征的“隐形贡献”
有趣的是,对于 Qwen 系列模型,保留中文(EnKoZh)的效果通常优于单纯的韩文(EnKo)。这暗示了 LLM 在预训练阶段,其推理能力可能部分依赖于跨语言的协同效应(特别是韩语中存在大量汉字词),彻底剔除这些相关语言可能会稍微削弱逻辑推理的连贯性。
3.3 机器翻译的质变
在翻译任务中,消除多余语言的干扰直接增强了“源语言-目标语言”的路径权重。Llama-3.1-8B-Inst 的性能大幅提升(0.58 -> 0.63),验证了剪枝能使模型更专注于特定双语映射。
4. 实验结果:效率与能力的平衡
虽然词表压缩了 36%,但推理延迟(Latency)的下降仅约 0.89%。

结论很明确:Token Pruning 的核心价值不在于提速(计算瓶颈在 Attention,不在 Embedding),而在于 1. 显存优化(Memory Saving) 和 2. 鲁棒性增强(Robustness)。
总结与启示
这项研究为“主权 AI”(Sovereign AI)的本土化适配提供了一条清晰的路径。对于资源受限的部署场景,我们不一定需要从头预训练,也不一定需要昂贵的微调。
Takeaways:
- 做减法也是优化:在不改变核心权重的情况下,精简词表能显著提高生成的一致性。
- 关注架构血统:在处理像韩语这样受汉字影响深刻的语言时,保留适当比例的邻近语言 Token(如中文)对模型推理是有益的。
- 未来方向:如何将词表剪枝与 KV Cache 优化等硬核加速技术结合,将是端侧部署的下一个热点。
关键词:Token Pruning, LLM Compression, Korean NLP, Language Confusion, Model Optimization.
