本文提出了 TIE-TFG 框架,这是首个专注于情感连续性(EC-TFG)的文本驱动播报脸生成任务。通过引入时序密集情感波动预测模型,该方法能根据文本和情感描述生成具有自然情感起伏的高清视频,在 MEAD 和 EC-HDTF 数据集上实现了 SOTA 性能。
TL;DR
传统的数字人播报往往像是一个带着固定面具的木偶——无论说多长的话,表情始终凝固在单一的情感状态。哈工大(HIT)等机构的研究团队提出了 TIE-TFG,首次实现了情感连续性 (Emotionally Continuous) 的播报脸生成。只需输入一段文本和情感描述,数字人就能在说话过程中展现出细腻、平滑的情感起伏。
背景定位:从“固定表情”到“情感波动”
在 Talking Face Generation (TFG) 领域,我们已经解决了“对得上口型”的问题,但“像不像真人”依然是巨大的挑战。真实人类在说话时,情感是流动的:一个愤怒的人在提到某个词时可能会稍微平复,随后更加激动。
现有的情感 TFG 方法(如 EAMM, EAT)通常输入一个固定的 One-hot 标签(如:Angry),导致生成的视频在整段音频中情感强度几乎没有变化,这在长视频中显得极其违和。
核心动机:解决音视频的情感错配
作者指出,音频驱动的方法天然存在局限:如果你想改变一个中性音频的表情,生成的视觉画面往往会与音频中的语气产生冲突。 TIE-TFG 的 Insight 是:采用文本驱动 (Text-Driven)。通过 TTS(文生语音)同步生成带情感的音频,再利用情感波动预测器 (EFP) 提取时序特征,从而在潜空间引导视觉生成。
方法论详解:TIE-TFG 的三阶跳
模型架构主要分为三个核心模块:
- 情感音频生成:使用 GLM-4-Voice 根据文本和描述生成具备初始情感起伏的音频 A。
- 时序密集情感波动预测 (EFP):这是本文的“灵魂”。它结合了文本特征 (ft) 和音频特征 (fa),预测每一帧的情感类别和强度。
- 情感引导视觉合成:基于 Stable Diffusion 1.5,引入了 ReferenceNet 保持身份一致性,并利用 Cross-Attention 将预测的波动特征融入。

关键技术点:特征解耦
为了避免情感特征干扰口型,作者使用了 MediaPipe 提取唇部 (Mlip)、表情 (Mexp) 和姿态 (Mpose) 的 Mask。情感特征被限制在特定的 Mask 区域内,确保了“愤怒”不会让嘴巴变形得无法认出单词。
实验与结果:全方位碾压
实验在 HDTF、LRS2、MEAD 等多个数据集上展开。为了量化“波动”效果,作者创新性地提出了 EF-score (Emotional Fluctuation Score),即逐帧比对生成视频与真实视频的情感标签一致性。
- 量化战绩:在 MEAD 数据集上,TIE-TFG 的 FID 达到 15.27,EF-score 达到 67.58,远超同类方法。
- 消融实验:结果显示,如果去掉文本特征仅靠音频,情感预测的准确率会下降约 3%,证明了文本在理解语境情感中的重要性。
上图展示了 TIE-TFG 在不同情感描述(如 Angry 到 Happy 的转换)下的卓越控制力。
深度洞察:TIE-TFG 的局限与未来
1. 情感冲突的挑战: 作者在附录中坦诚讨论了“情感冲突”案例。当输入的文本内容(如“我很高兴”)与情感描述(描述为“愤怒”)完全相反时,模型虽然能勉强生成愤怒表情,但自然度会受影响。这暗示了未来的研究需要更深层的语义一致性建模。
2. 伪标签的依赖性: 由于大规模情感波动标注数据极度匮乏,本文依赖 ResEmoteNet 生成伪标签。这意味着生成效果的上限被现有的情感识别模型所锁死。
总结
TIE-TFG 的出现,标志着 Talking Face 任务从“让嘴动起来”真正跨入了“让表情活起来”的阶段。通过细粒度的波动建模,它为短视频制作、电影配音以及高交互性虚拟人提供了更具说服力的技术底座。
Takeaway:未来的数字人不再是一张会动的照片,而是一个能够理解语境、产生情绪曲线的智能实体。
