Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Mamoda2.5: Enhancing Unified Multimodal Model with DiT-MoE

Mamoda2.5：细粒度 MoE 开启视频生成与编辑的“轻量化”大模型时代

Summary

Problem

Method

Results

Takeaways

Abstract

字节跳动团队推出的 Mamoda2.5 是一个统一的 AR–Diffusion 框架，通过引入细粒度 DiT-MoE (128专家，Top-8 路由) 设计，在单个架构中整合了多模态理解与生成。该模型拥有 25B 总参数量，但在推理时仅激活 3B 参数，不仅在视频编辑质量上创下新纪录，还显著降低了训练和推理成本。

TL;DR

字节跳动 Mamoda 团队发布的 Mamoda2.5 是一项里程碑式的工作。它通过 Fine-grained DiT-MoE 架构，成功在 25B 参数的规模下实现了极高的效率：仅需激活 3B 参数即可运行。更令人印象深刻的是，它将曾经极其缓慢的视频编辑任务加速了 95.9 倍，甚至在多个基准测试中击败了顶级的闭源模型 Kling O1。

背景：视频生成的“计算墙”

在视频生成领域，Scaling Laws 依然有效，但代价沉重。随着视频时长和分辨率的增加，Transformer 内部的 Full Attention 会产生巨大的开销。现有的 dense（稠密）架构在面对 10B 以上参数时，推理延迟往往会让实时应用变得遥不可及。Mamoda2.5 的核心使命就是：既要 Scaling 的质量，又要 Sparse 的速度。

核心方法：细粒度专家系统与极致蒸馏

1. 细粒度 DiT-MoE (The Scaling Engine)

不同于传统的粗粒度 MoE，Mamoda2.5 采用了 128 个路由专家。这种细粒度设计允许模型在固定的计算预算内，通过 Top-8 路由获得无穷的专家组合可能性（约 $1 0^{12}$ 种组合）。

Expert Bias 负载均衡：一种无损的平衡策略，通过动态偏置避免“热点专家”产生，提高设备利用率。
Upcycling 策略：为了不从零开始训练，作者发明了随机神经元采样（Random Neuron Sampling），直接从 5B 的稠密预训练模型中“继承”知识到 25B 的 MoE 中，收敛速度提升了 5 倍。

模型架构图 图 1: Mamoda2.5 整体架构，集成了 AR 理解模块与 DiT-MoE 生成模块。

2. 联合蒸馏与 RL (The Inference Booster)

视频编辑通常需要 30-50 步的降噪，以及昂贵的 Classifier-Free Guidance (CFG)。作者提出了 Joint Few-Step Distillation & RL：

DMD (分布匹配蒸馏)：将模型直接压缩到 4 步。
DiffusionNFT (强化学习)：利用美学、指令遵循和背景一致性等多个奖励函数进行训练。
奇迹发生：RL 训练后的 4 步学生模型，在编辑质量上竟然反超了 30 步的老师模型！

实验战绩：开源界的“编辑之王”

在视频编辑权威榜单 OpenVE-Bench 上，Mamoda2.5 斩获了 3.86 的高分，不仅横扫了所有开源模型（如 VInO, OmniVideo），甚至超过了知名的闭源模型 Kling O1 (3.69)。

实验结果对比 图 2: Mamoda2.5 与其他 SOTA 模型的推理速度与任务耗时对比。

在实际视觉效果中，Mamoda2.5 表现出极强的空间推理能力（能够准确判断背包该挂在哪个肩膀上）和细节保留能力（在移除物体时不会弄乱背景纹理）。

工业应用：不只是学术纸面

Mamoda2.5 已经在字节跳动的广告业务中实战：

自动内容审核：评估视频广告的文字准确性和美学质量。
创意修复：通过自然语言指令，一键修复视频素材中的伪影或低分辨率区域。其在内部广告视频编辑测试中达到了 98% 的成功率。

局限与未来

尽管 Mamoda2.5 在视觉上非常强大，但它目前还不支持音频同步生成。作者在展望中提到，未来的 Omni Audio-Video 模型将是下一个高地。

总结

Mamoda2.5 告诉我们：稀疏化（Sparsity）不是对性能的妥协，而是通往更大规模参数之路的唯一门票。 通过将 DiT 与细粒度 MoE 结合，视频生成的门槛被再次向下拉低了一大截。

关键词： #Mixture-of-Experts #VideoGeneration #DiffusionTransformer #ByteDance #DiT-MoE

Find Similar Papers

Try Our Examples

针对视频生成领域，除了 MoE 外还有哪些最新的方法能够解决时空注意力机制的二次复杂度问题？
追溯深度稀疏上采样（Sparse Upcycling）的理论起源，并对比本文的随机神经元采样与传统权重复制方法的优劣。
目前有哪些研究正在探索将视频扩散模型与大语言模型的理解能力进行更深层级（端到端）的统一架构设计？

Contents

Mamoda2.5：细粒度 MoE 开启视频生成与编辑的“轻量化”大模型时代

1. TL;DR

2. 背景：视频生成的“计算墙”

3. 核心方法：细粒度专家系统与极致蒸馏

3.1. 1. 细粒度 DiT-MoE (The Scaling Engine)

3.2. 2. 联合蒸馏与 RL (The Inference Booster)

4. 实验战绩：开源界的“编辑之王”

5. 工业应用：不只是学术纸面

6. 局限与未来

7. 总结