本文推出了 OmniHuman,一个针对以人为中心的音视频联合生成的超大规模、层次化标注数据集(100万视频,1800小时)。同时配套建立了 OHBench 评测基准,通过 20% 数据的微调实验,显著提升了 LTX-2 等开源模型在复杂交互场景下的 SOTA 性能。
TL;DR
在视频生成领域,Llama、LTX-2 等模型虽然能生成惊艳的单人画面,但在处理“两人对谈”、“手拿工具”等复杂交互时常显拙劣。腾讯、北大等机构联合推出的 OmniHuman 填补了这一空白。它是一套包含 100 万高质量视频的超大规模数据集,并伴随一个极其严苛的评测基准 OHBench。仅仅用该数据集的 20% 进行微调,开源模型在音画同步、身份稳定性、物理真实感上便能直逼闭源 SOTA(如 Sora2、Veo3)。
痛点深挖:为什么当前的 AI 视频“没有人味”?
尽管我们已经步入了 Native Bimodal(原生双模态)时代,但现有的数据集(如 VoxCeleb, TikTok-v4)普遍面临“三无”困境:
- 场景贫瘠:由于多在棚拍或固定场景,模型一到真实户外或动感镜头下就逻辑崩溃。
- 交互缺失:多主体互动视频占比不足 3%,导致模型遇到多位角色时常发生“脸部融合”或“声音投错人”。
- 物理失真:手部与工具的接触界面(Contact Interface)往往伴随剧烈的噪点和形变。
表 1:OmniHuman 与现有主流人像数据集的对比,可见其在交互标注上的碾压优势
核心机制:全自动工业级数据管线
OmniHuman 的成功归功于其极其严谨的 全自动层级化标注流水线。作者并没有依赖简单的人力标注,而是整合了当前最强的感知模型:
- 视觉净化层:利用 TransNetV2 剪辑镜头,配合 OCR 和 Logo 检测,精准剔除字幕、水印等干扰。
- 主体认知层:通过 YOLOv11 + MOTRv2 实现跨帧 ID 追踪,辅以 134 个全身骨架点(Kpt)的姿态捕获。
- 跨模态同步层:这是最有技术含量的部分。利用 SyncNet 计算脸部区域与音轨的相关性,确保每一句语音都能精准锚定到说话人身上,过滤掉背景音干扰。
- 语意重构层:基于 Qwen3-Omni 提取全局背景、交互关系和个人特质。为了防止大模型产生“幻觉”,作者引入了 占位符机制(Placeholder),将 ASR 转录的内容强制嵌入生成的 Caption 中。
图 1:四阶段层级化数据处理流水线
实验与结果:开源模型的“升级补丁”
作者将目光投向了最先进的开源和闭源模型。实验揭示了一个有趣的现象:虽然闭源模型(如 Google Veo3.1)在画质和动态度上领先,但在一些细分指标(如静默听者的真实感 Listener Realism)上,经过精心设计的开源模型甚至表现更优。
微调奇迹: 将开源模型 LTX-2 在 20% 的 OmniHuman 样本上微调后:
- 音频美学得分 (AbS) 提升了 11.9%。
- 跨模态相关性 (T-A) 爆炸式提升 25.0%。
- 接触自然度 (CN) 提升 4.9%,这直接反映了模型对物理世界的理解更深了。
图 2:开源与闭源模型在 7 个维度上的性能雷达图对比
深度洞察:OHBench 的诊断价值
论文中提到的 OHBench (OmniHuman Benchmark) 值得学术界高度关注。它不再仅仅使用传统的 FID 或剪裁得分,而是引入了:
- 背景合理性 (BP):利用多模态大模型判断相机移动瞬间,背景的透视差是否符合物理规律。
- 人机/人物互动 (Social-Physical Realism):不仅看画质,更看眼神交流、动作响应和抓取工具时的力度合理性。
总结与未来展望
Takeaway: OmniHuman 告诉我们,模型规模和架构或许不是目前的唯一瓶颈,结构化、具备强物理关联的数据集才是解开“人类高质量生成”的钥匙。
局限性: 尽管规模巨大,但在“远景镜头(Long Shots)”下的面部细节和极快动作下的肢体纠缠仍存在挑战。这预示着未来的研究方向将从单纯的数据堆砌,转向更高频率的运动捕捉和更复杂的 3D 物理一致性监督。
注:文中数据来源于论文对 2026 年主流模型(如 Wan2.5, Sora2, Veo3)的实测数据。
