UniTalking 是由华为中央媒体技术院提出的统一音视频生成框架。该框架基于 Multi-Modal DiT (MM-DiT) 架构,采用端到端扩散模型(Diffusion)和 Flow Matching 技术,实现了文本、图像、参考音频驱动的高保真人物头像视频与同步语音的联合生成。
TL;DR
华为 UniTalking 突破了传统“先声后影”的级联生成模式,通过一个统一的 Multi-Modal DiT 框架,实现了高保真人物头像视频与其对应语音的同步生成。通过引入 Joint-Attention 和渐进式训练策略,模型在口型同步(Lip-sync)和音质自然度上刷新了开源 SOTA 纪录,性能直指闭源巨头 Sora2。
1. 痛点深挖:为什么“缝合”出来的视频不自然?
目前大多数 Talking Portrait 生成模型通过“两步走”实现:先用 TTS 生成音频,再用音频驱动静态图。这种级联方式存在两个致命伤:
- 误差累积:第一步音频中的细微呼吸声或停顿如果在第二步没能精准捕捉,就会产生明显的“音画分离”感。
- 建模脱节:视频和音频在物理本质上是强耦合的(发音动作与声音同步产生),而现有模型往往缺乏对这种联合分布的直接建模。
UniTalking 认为,真正的突破在于端到端联合生成。
2. 核心架构:对称双流与联合注意力 (Methodology)
UniTalking 的核心是一个拥有 10B 参数的 Multi-Modal Transformer (MM-DiT) 骨干网络。
对称双流设计 (Symmetric Twin Design)
为了借力已有的视觉先验,模型视频支路继承了 Wan2.2-5B 的权重。而音频支路则被设计为视觉支路的“镜像双胞胎”。这种架构上的对称性,使得 latent 空间中的融合变得极其自然。
联合注意力机制 (Joint-Attention)
这是实现帧级对齐的“黑科技”。模型将视频 Token 和音频 Token 在时间维度上横向连接(Concatenate),输入同一个 Self-attention 层。这意味着模型在计算注意力时,每一帧视觉像素都会主动寻找对应的音素频率特征。

创新的位置编码
UniTalking 采用了各向异性的 RoPE (Rotary Positional Embedding) 策略:在音频 Token 的空间维度应用固定位置编码,在时间维度应用标准 RoPE。这迫使模型将注意力集中在“时间动态”上,从而极大增强了口型的爆发力和节奏感。
3. 训练策略:打破初始化不平衡
视频支路有强大的预训练积累,而音频支路是随机初始化的。直接联合训练会导致视频“带歪”音频。作者提出了两阶段策略:
- Stage 1: 音频支路冷启动。在 TTS 任务上单独训练音频支路,让它学会如何将文本转为声学规律。
- Stage 2: 多任务联合进化。同时开启 T2AV(文本生音视频)、TV2A(视频生音频)等任务,通过这种“左右互搏”增强模型的双向理解能力。
4. 实验战绩:对标 Sora2 的表现
在口型对齐的硬指标 Sync-D 上,UniTalking 表现惊艳:
- UniTalking: 8.05
- Sora2 (Google/OpenAI): 7.78
- Universe-1 (旧 SOTA): 11.97 (注:Sync-D 越低越好)
可视化结果显示,模型不仅能处理正常的说话,甚至能根据文本中的 [a short laugh] 描述生成真实的笑声及其对应的面部肌肉颤动。

5. 深度洞察
UniTalking 的成功在于它对“统一性”的极致追求。它不满足于仅仅把视频和音频放在一起,而是通过 Joint-Attention 在特征层面实现了物理意义上的“共振”。
局限性与挑战:目前模型尚未支持多角色对话(如 Sora2 的 Cameo 功能),且对算力要求极高。但在开源领域,它为高质量数字人、自动电影配音等场景提供了一个全新的技术标杆。
总结 (Takeaway)
UniTalking 证明了:不要去“驱动”视频,要去“生成”音视频。 当模型学会了声音与动作的内在逻辑,完美的对齐便不再是需要后期修补的补丁,而是水到渠成的结果。
