Continuous Latent Diffusion Language Model

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Continuous Latent Diffusion Language Model

Cola DLM：重塑语言模型——从 Token 预测到连续潜空间 Prior 传输

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 Cola DLM，一种分层连续潜变量扩散语言模型。该模型结合了 Text VAE 与 block-causal DiT，在连续潜空间内执行 Prior Transport，在多项生成任务中达到了与强基线（如 Llama-2-70B 级别）相当的性能。

TL;DR

ByteDance Seed 团队提出的 Cola DLM 挑战了“大语言模型必须是自回归（AR）”的固有印象。它通过 Text VAE + Block-Causal DiT 的分层设计，将文本生成拆解为“全局语义组织”与“局部文本实现”。实验证明，在连续潜空间中通过扩散模型传输 Prior，不仅能获得极强的扩展性（Scaling Law），还为图文统一建模铺平了道路。

痛点深挖：自回归的“围城”与离散扩散的“泥潭”

当前 LLM 统治范式是 Next-Token Prediction。尽管成功，但这种“逐词蹦迪”的方式存在三大痛点：

顺序耦合：推理是严格串行的，无法进行全局规划。
归纳偏置局限：模型被限制在单一的左向右视角，处理 Infilling（填空）或编辑任务时极其笨拙。
离散空间的陷阱：单纯的离散扩散模型（如 LLaDA）虽然打破了顺序限制，但在不连续的 token 空间里进行“硬恢复”，采样效率低且由于缺乏平滑的几何结构，难以捕获高维语义层面的变换。

Cola DLM 的核心直觉在于：生成不应该是在 token 空间里修修补补，而应是在连续语义空间里进行 Prior Transport（先验传输）。

Methodology：层次化信息分解的艺术

Cola DLM 的架构分为三步走：

稳定映射 (Text VAE)：使用因果 VAE 将离散文本压缩入连续潜空间 $z_{0}$ 。
先验建模 (Block-Causal DiT)：在 $z$ 空间，利用流匹配（Flow Matching）学习矢量场，实现从高斯噪声到语义潜变量的传输。
条件解码：Decoder 根据生成的潜变量 $z_{0}$ 还原出最终文本。

模型架构图

关键创新点：块因果（Block-Causal）机制

为了兼顾非自回归的并行性与长文本的逻辑连贯，作者设计了 Block-Causal 约束。这意味着：在块内（Intra-block），模型可以并行双向关注，提高效率；在块间（Inter-block），保持因果依赖，确保语义逻辑不崩塌。

实验与结果：Scaling Law 的胜利

作者通过横跨 8 个 Benchmark 的实验，验证了 Cola DLM 的强大性能：

扩展性（Scaling Capacity）：随着训练算力（EFLOPs）的增加，Cola DLM 的性能表现出比 AR 和 LLaDA 更持久的增长曲线。
推理效率：在推理时，Cola DLM 仅需 10-32 步采样即可达到 SOTA 效果。实验发现，8-10 步采样已经能够覆盖大部分性能增益，这相较于逐 token 生成的 AR 模型，极大地降低了串行操作的深度。

实验结果对比

语义平滑性分析 (Ablation Study)

研究发现，在 VAE 训练中加入 BERT-style Masking Loss 至关重要。它能显著提升潜空间的语义平滑度（Semantic Smoothness），使模型在推理时的降噪过程更加稳健。

深度洞察：为什么 PPL 不再是唯一指标？

Cola DLM 揭示了一个有趣的现象：生成质量与困惑度（PPL）并不总是对齐的。 在连续潜变量模型中，PPL 对概率空间的局部校准（VAE logSNR）极其敏感，而人的主观生成质量更依赖于潜空间的语义连贯性。这意味着我们评价未来生成模型时，需要从“点对点匹配”转向“分布覆盖”的评估维度。

展望：迈向原生多模态统一

Cola DLM 最令人兴奋的贡献不仅在于文本，而在于其 天然的多模态兼容性。由于文本被转化为了连续潜变量，它现在可以与图像、视频的潜变量共享同一个 DiT Prior 骨架。

多模态示例

如图所示，由于统一了表征空间，Cola DLM 不费吹灰之力就展示了初级的 Image-to-Text (Captioning) 和 Text-to-Image 互通能力。这预示着，未来的原生多模态模型可能不再需要复杂的对齐层，而是基于同一套连续扩散 Prior 的层次化系统。

总结

Cola DLM 的出现标志着语言建模正从“ token 的炼金术”转向“潜空间的几何传输”。它不仅解决了 AR 模型的推理瓶颈，更为我们提供了一个优雅的框架，去构建真正理解世界几何规律的统一生成智能体。

Senior Tech Editor's Insight: Cola DLM 的本质是将原本由 Transformer 逐层堆叠产生的表征（Hidden States）显式化为可训练的分布传输问题。这种层次化分解（Hierarchical Decomposition）有效地降低了模型在单一离散序列上的 Inductive Bias 压力。

Find Similar Papers

Try Our Examples

查找最近其他试图解决 Transformer 训练中自回归顺序约束（Non-autoregressive）的扩散语言模型论文。
哪篇论文最早提出了 Flow Matching 理论，Cola DLM 在 Prior 传输上是如何改进该原始方法的？
有哪些最新的研究尝试将连续潜空间扩散模型应用到跨模态（如 Text-to-Video 或 Unified Multimodal）任务中？

Contents

Cola DLM：重塑语言模型——从 Token 预测到连续潜空间 Prior 传输

1. TL;DR

2. 痛点深挖：自回归的“围城”与离散扩散的“泥潭”

3. Methodology：层次化信息分解的艺术

3.1. 关键创新点：块因果（Block-Causal）机制

4. 实验与结果：Scaling Law 的胜利

4.1. 语义平滑性分析 (Ablation Study)

5. 深度洞察：为什么 PPL 不再是唯一指标？

6. 展望：迈向原生多模态统一

7. 总结