混合专家路由是否比密集Transformer架构更高效？

混合专家路由的实际作用是什么？为何它可能更高效？

在密集Transformer中，每个输入都会激活所有参数——就像让所有员工处理每一项任务。而在混合专家（MoE）模型中，每个输入仅激活一部分“专家”子网络，由学习得到的路由模块进行选择。这种稀疏性是实现高效的关键：你可以拥有庞大的总模型容量（包含众多专家），但每次前向传播仅使用其中一小部分计算资源。一项研究发现，与同等容量的密集Transformer相比，采用top-1专家激活（每层仅激活一个专家）的MoE Transformer可将峰值GPU内存降低约50-57%，单样本推理延迟也减少相近比例，同时在基准数据集上的预测误差降低50.9-56.9%[1]。这意味着你可以在相同硬件上运行更大的模型，或者以更低成本、更快速度运行同等规模的模型。

但这种效率并非自动实现，而是取决于路由器如何做出决策。如果路由器分配任务不当，可能会激活过多专家或造成瓶颈。同一项研究采用强化学习来优化路由，以提升准确性、一致性并平衡专家使用率，这对实现上述增益至关重要[1]。因此，MoE路由可以更高效，但前提是路由本身设计得当。

混合专家路由在什么情况下明显优于密集变压器？

在自动语音识别任务中，当不同输入需要不同专业化处理时，混合专家（MoE）路由机制的表现始终优于密集模型。采用跨层共享路由器的MoE模型，相比密集模型平均词错误率降低了11.2%，相比标准MoE（Switch Transformer）降低了8.2%[2]。共享路由器促使专家更有效地实现专业化分工，从而在多样化数据集上提升了准确性与鲁棒性。这表明MoE不仅关乎效率——通过让专家专注于不同模式，它还能提升模型质量。

在多模态大语言模型（处理文本、图像、音频等）中，像Uni-MoE这样的混合专家架构减少了混合数据集上的性能偏差，并提升了多专家协作能力[4]。其关键在于采用渐进式训练策略，对齐不同模态并激活专家偏好。在图像生成领域，一种基于混合专家架构的扩散变换器（DiT-MoE）在推理时计算量大幅降低的情况下，实现了与密集网络相当的性能，甚至扩展至165亿参数，并以1.80的FID分数达到业界领先水平[5]。因此，当专业化分工至关重要时——这在包含多样化模式的真实世界数据中十分常见——混合专家架构便展现出显著优势。

有什么陷阱？MoE在什么情况下效率不高？

MoE路由机制会引入额外开销，若管理不当，可能抵消其效率优势。路由器本身需要计算资源，而如果专家模块负载不均衡，部分专家可能过载，另一些则闲置。一项研究发现，不同层中的标准MoE路由器做出的选择之间关联性较弱，导致专家使用效率低下——通过共享路由器解决这一问题后，准确率和效率均得到提升[2]。此外，MoE模型的内存占用更大，因为所有专家参数都必须存储，即便每次前向传播仅使用其中少数几个。这可能导致加载延迟和内存瓶颈，在内存有限的设备上尤为明显。

为此，研究人员开发了混合精度量化（对重要性较低的专家使用更少比特数）和动态剪枝（跳过不重要的词元）等压缩技术。其中一种方法将MoE模型的76.6%参数压缩至平均每参数2.54比特，准确率仅下降3.8%，并在推理过程中进一步将激活参数减少15%，性能损失不到0.6%[3]。因此，尽管MoE可能更高效，但在实际应用中往往需要额外的优化技巧才能实现这些优势。对于小型模型或简单任务而言，路由与专家存储的开销可能超过其收益，此时密集Transformer反而成为更简单、更高效的选择。

本文引用的文献

学习在时域和频域中进行路由：一种用于多时间跨度预测的双域MoE变换器。

MoE-Transformer相比同等容量的稠密Transformer，峰值GPU内存降低了50.9%-56.9%，推理延迟也相应减少，同时在五个基准测试中[1]将预测误差最高降低了56.9%。

2026 · Qi Ji, Jiaxing Wang, Han He, Sheya He, Xiaoyu Dai · Scientific reports

原文

Omni-Router：在稀疏混合专家模型中共享路由决策以用于语音识别

在语音识别任务中，采用跨层共享路由器的全路由Transformer相比密集模型词错误率降低了11.2%，相比标准MoE模型降低了8.2%[2]。

2025 · Zijin Gu, Tatiana Likhomanenko, N. Jaitly · Automatic Speech Recognition & Understanding

原文

MC-MoE：面向混合专家大语言模型的混合压缩器，实现更优性能

MC-MoE将MoE大语言模型压缩至每参数2.54比特，压缩率达76.6%，仅造成3.8%的准确率损失；同时进一步将激活参数减少15%，性能下降幅度低于0.6%[3]。

2024 · Wei Huang, Yue Liao, Jianhui Liu, Ruifei He, Haoru Tan, Shiming Zhang, Hongsheng Li, Si Liu, Xiaojuan Qi · arXiv (Cornell University)

WisPaper

原文

Uni-MoE：基于混合专家模型扩展统一多模态大语言模型

Uni-MoE作为一种统一的多模态专家混合模型，通过渐进式训练[4]减少了混合数据集上的性能偏差，并提升了多专家协作能力。

2025 · Yunxin Li, Shenyuan Jiang, Baotian Hu, Longyue Wang, Wanqi Zhong, Wenhan Luo, Lin Ma, Min Zhang · IEEE Transactions on Pattern Analysis and Machine Intelligence

原文

将扩散变换器扩展至160亿参数

DiT-MoE 是一种稀疏扩散变换器，能以更少的计算量达到密集网络的性能，并扩展至165亿参数，取得了1.80的FID-50K最优分数[5]。

2024 · Zhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang · arXiv.org

原文