WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[arXiv 2026] UniTalking:对标 Sora2,华为提出统一音视频生成的“对称双流”新范式
Summary
Problem
Method
Results
Takeaways
Abstract

UniTalking 是由华为中央媒体技术院提出的统一音视频生成框架。该框架基于 Multi-Modal DiT (MM-DiT) 架构,采用端到端扩散模型(Diffusion)和 Flow Matching 技术,实现了文本、图像、参考音频驱动的高保真人物头像视频与同步语音的联合生成。

TL;DR

华为 UniTalking 突破了传统“先声后影”的级联生成模式,通过一个统一的 Multi-Modal DiT 框架,实现了高保真人物头像视频与其对应语音的同步生成。通过引入 Joint-Attention 和渐进式训练策略,模型在口型同步(Lip-sync)和音质自然度上刷新了开源 SOTA 纪录,性能直指闭源巨头 Sora2。

1. 痛点深挖:为什么“缝合”出来的视频不自然?

目前大多数 Talking Portrait 生成模型通过“两步走”实现:先用 TTS 生成音频,再用音频驱动静态图。这种级联方式存在两个致命伤:

  1. 误差累积:第一步音频中的细微呼吸声或停顿如果在第二步没能精准捕捉,就会产生明显的“音画分离”感。
  2. 建模脱节:视频和音频在物理本质上是强耦合的(发音动作与声音同步产生),而现有模型往往缺乏对这种联合分布的直接建模。

UniTalking 认为,真正的突破在于端到端联合生成

2. 核心架构:对称双流与联合注意力 (Methodology)

UniTalking 的核心是一个拥有 10B 参数的 Multi-Modal Transformer (MM-DiT) 骨干网络。

对称双流设计 (Symmetric Twin Design)

为了借力已有的视觉先验,模型视频支路继承了 Wan2.2-5B 的权重。而音频支路则被设计为视觉支路的“镜像双胞胎”。这种架构上的对称性,使得 latent 空间中的融合变得极其自然。

联合注意力机制 (Joint-Attention)

这是实现帧级对齐的“黑科技”。模型将视频 Token 和音频 Token 在时间维度上横向连接(Concatenate),输入同一个 Self-attention 层。这意味着模型在计算注意力时,每一帧视觉像素都会主动寻找对应的音素频率特征。

模型架构图

创新的位置编码

UniTalking 采用了各向异性的 RoPE (Rotary Positional Embedding) 策略:在音频 Token 的空间维度应用固定位置编码,在时间维度应用标准 RoPE。这迫使模型将注意力集中在“时间动态”上,从而极大增强了口型的爆发力和节奏感。

3. 训练策略:打破初始化不平衡

视频支路有强大的预训练积累,而音频支路是随机初始化的。直接联合训练会导致视频“带歪”音频。作者提出了两阶段策略:

  • Stage 1: 音频支路冷启动。在 TTS 任务上单独训练音频支路,让它学会如何将文本转为声学规律。
  • Stage 2: 多任务联合进化。同时开启 T2AV(文本生音视频)、TV2A(视频生音频)等任务,通过这种“左右互搏”增强模型的双向理解能力。

4. 实验战绩:对标 Sora2 的表现

在口型对齐的硬指标 Sync-D 上,UniTalking 表现惊艳:

  • UniTalking: 8.05
  • Sora2 (Google/OpenAI): 7.78
  • Universe-1 (旧 SOTA): 11.97 (注:Sync-D 越低越好)

可视化结果显示,模型不仅能处理正常的说话,甚至能根据文本中的 [a short laugh] 描述生成真实的笑声及其对应的面部肌肉颤动。

实验结果对比

5. 深度洞察

UniTalking 的成功在于它对“统一性”的极致追求。它不满足于仅仅把视频和音频放在一起,而是通过 Joint-Attention 在特征层面实现了物理意义上的“共振”。

局限性与挑战:目前模型尚未支持多角色对话(如 Sora2 的 Cameo 功能),且对算力要求极高。但在开源领域,它为高质量数字人、自动电影配音等场景提供了一个全新的技术标杆。

总结 (Takeaway)

UniTalking 证明了:不要去“驱动”视频,要去“生成”音视频。 当模型学会了声音与动作的内在逻辑,完美的对齐便不再是需要后期修补的补丁,而是水到渠成的结果。

Find Similar Papers

Try Our Examples

  • 查找最近一年内其他基于 Flow Matching 技术的端到端音视频联合生成(Unified Audio-Video Generation)论文。
  • 哪篇论文首次提出了 MM-DiT 架构,UniTalking 在其基础上对 Cross-Attention 模块做了哪些针对性的改进?
  • 有哪些研究探讨了如何在使用 DiT 架构进行多模态生成时,处理不同模态间初始化不平衡(Initialization Imbalance)的问题?
Contents
[arXiv 2026] UniTalking:对标 Sora2,华为提出统一音视频生成的“对称双流”新范式
1. TL;DR
2. 1. 痛点深挖:为什么“缝合”出来的视频不自然?
3. 2. 核心架构:对称双流与联合注意力 (Methodology)
3.1. 对称双流设计 (Symmetric Twin Design)
3.2. 联合注意力机制 (Joint-Attention)
3.3. 创新的位置编码
4. 3. 训练策略:打破初始化不平衡
5. 4. 实验战绩:对标 Sora2 的表现
6. 5. 深度洞察
7. 总结 (Takeaway)