UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

[arXiv 2026] UniTalking：对标 Sora2，华为提出统一音视频生成的“对称双流”新范式

Summary

Problem

Method

Results

Takeaways

Abstract

UniTalking 是由华为中央媒体技术院提出的统一音视频生成框架。该框架基于 Multi-Modal DiT (MM-DiT) 架构，采用端到端扩散模型（Diffusion）和 Flow Matching 技术，实现了文本、图像、参考音频驱动的高保真人物头像视频与同步语音的联合生成。

TL;DR

华为 UniTalking 突破了传统“先声后影”的级联生成模式，通过一个统一的 Multi-Modal DiT 框架，实现了高保真人物头像视频与其对应语音的同步生成。通过引入 Joint-Attention 和渐进式训练策略，模型在口型同步（Lip-sync）和音质自然度上刷新了开源 SOTA 纪录，性能直指闭源巨头 Sora2。

1. 痛点深挖：为什么“缝合”出来的视频不自然？

目前大多数 Talking Portrait 生成模型通过“两步走”实现：先用 TTS 生成音频，再用音频驱动静态图。这种级联方式存在两个致命伤：

误差累积：第一步音频中的细微呼吸声或停顿如果在第二步没能精准捕捉，就会产生明显的“音画分离”感。
建模脱节：视频和音频在物理本质上是强耦合的（发音动作与声音同步产生），而现有模型往往缺乏对这种联合分布的直接建模。

UniTalking 认为，真正的突破在于端到端联合生成。

2. 核心架构：对称双流与联合注意力 (Methodology)

UniTalking 的核心是一个拥有 10B 参数的 Multi-Modal Transformer (MM-DiT) 骨干网络。

对称双流设计 (Symmetric Twin Design)

为了借力已有的视觉先验，模型视频支路继承了 Wan2.2-5B 的权重。而音频支路则被设计为视觉支路的“镜像双胞胎”。这种架构上的对称性，使得 latent 空间中的融合变得极其自然。

联合注意力机制 (Joint-Attention)

这是实现帧级对齐的“黑科技”。模型将视频 Token 和音频 Token 在时间维度上横向连接（Concatenate），输入同一个 Self-attention 层。这意味着模型在计算注意力时，每一帧视觉像素都会主动寻找对应的音素频率特征。

模型架构图

创新的位置编码

UniTalking 采用了各向异性的 RoPE (Rotary Positional Embedding) 策略：在音频 Token 的空间维度应用固定位置编码，在时间维度应用标准 RoPE。这迫使模型将注意力集中在“时间动态”上，从而极大增强了口型的爆发力和节奏感。

3. 训练策略：打破初始化不平衡

视频支路有强大的预训练积累，而音频支路是随机初始化的。直接联合训练会导致视频“带歪”音频。作者提出了两阶段策略：

Stage 1: 音频支路冷启动。在 TTS 任务上单独训练音频支路，让它学会如何将文本转为声学规律。
Stage 2: 多任务联合进化。同时开启 T2AV（文本生音视频）、TV2A（视频生音频）等任务，通过这种“左右互搏”增强模型的双向理解能力。

4. 实验战绩：对标 Sora2 的表现

在口型对齐的硬指标 Sync-D 上，UniTalking 表现惊艳：

UniTalking: 8.05
Sora2 (Google/OpenAI): 7.78
Universe-1 (旧 SOTA): 11.97 (注：Sync-D 越低越好)

可视化结果显示，模型不仅能处理正常的说话，甚至能根据文本中的 [a short laugh] 描述生成真实的笑声及其对应的面部肌肉颤动。

实验结果对比

5. 深度洞察

UniTalking 的成功在于它对“统一性”的极致追求。它不满足于仅仅把视频和音频放在一起，而是通过 Joint-Attention 在特征层面实现了物理意义上的“共振”。

局限性与挑战：目前模型尚未支持多角色对话（如 Sora2 的 Cameo 功能），且对算力要求极高。但在开源领域，它为高质量数字人、自动电影配音等场景提供了一个全新的技术标杆。

总结 (Takeaway)

UniTalking 证明了：不要去“驱动”视频，要去“生成”音视频。 当模型学会了声音与动作的内在逻辑，完美的对齐便不再是需要后期修补的补丁，而是水到渠成的结果。

Find Similar Papers

Try Our Examples

查找最近一年内其他基于 Flow Matching 技术的端到端音视频联合生成（Unified Audio-Video Generation）论文。
哪篇论文首次提出了 MM-DiT 架构，UniTalking 在其基础上对 Cross-Attention 模块做了哪些针对性的改进？
有哪些研究探讨了如何在使用 DiT 架构进行多模态生成时，处理不同模态间初始化不平衡（Initialization Imbalance）的问题？

Contents

[arXiv 2026] UniTalking：对标 Sora2，华为提出统一音视频生成的“对称双流”新范式

1. TL;DR

2. 1. 痛点深挖：为什么“缝合”出来的视频不自然？

3. 2. 核心架构：对称双流与联合注意力 (Methodology)

3.1. 对称双流设计 (Symmetric Twin Design)

3.2. 联合注意力机制 (Joint-Attention)

3.3. 创新的位置编码

4. 3. 训练策略：打破初始化不平衡

5. 4. 实验战绩：对标 Sora2 的表现

6. 5. 深度洞察

7. 总结 (Takeaway)