本文提出了 HILBERT 框架,一种专为长序列、小样本场景设计的跨模态音频-文本表示学习方法。通过结合冻结的预训练编码器、层次化自注意力聚合,以及一种独特的“对等双重对比学习”策略,该方法在心理疾病预测等极度不平衡的任务中达到了 SOTA 性能。
TL;DR
在多模态学习领域,如何让“话包袱”很重的音频与“精炼”的文本完美对齐一直是痛点。本文提出的 HILBERT 框架不仅能处理文档级的长序列,还通过一种巧妙的双重对比学习和互信息平衡策略,解决了模态间信息密度不对等的问题,在心理预测任务上大幅超越了传统的 CLAP 等模型。
背景定位:为何现有的 CLIP/CLAP 处理不了长文档?
传统的对比学习模型(如 CLIP, CLAP)建立在“全局映射”的基础上。它们通常将一段短视频或短音频压缩成一个向量,然后去和一段简短的标注(Caption)对齐。然而在现实世界,特别是心理临床采访中:
- 序列极长:对话往往持续数分钟甚至更久。
- 信息严重不对称:音频特征维度极高且冗余(包含语调、停顿、情感),而对应的文本摘要通常极短。
- 低资源挑战:临床数据往往样本量小且各类患病人群分布极度不均。
核心直觉:不要“生拉硬拽”,要“向中心对齐”
HILBERT 的核心贡献在于改变了对比学习的“拉近”方式。作者认为,由于音频和文本各具特色,强行在两个模态间做映射会导致模态坍缩(Modality Collapse)。
1. 关节中心双重对比 (Joint-Centric Dual Contrastive)
HILBERT 不再强制 Audio 靠近 Text。相反,它先通过跨模态注意力机制 (Cross-modal Attention) 融合成一个“联合表示 (Joint Embedding)”,然后分别拉近:
- Audio Joint
- Text Joint
这种方法就像是让两个翻译员都向“中心思想”靠拢,而不是让两个语言完全不同的人直接对话。
2. 结构保留与信息平衡
为了防止模型只听音频不看文本(或反之),作者引入了两大数学“利器”:
- CKA Loss:通过测量核矩阵的相似度,确保音频/文本在投影后,依然保留其原始的流形结构。
- MI Loss:通过互信息估算(InfoNCE),对两个模态贡献的平衡性进行奖惩。

实验解析:即使在极端不平衡下依然稳健
论文在 FORBOW 数据集上进行了严耕:包含抑郁症(MDD)、双相情感障碍(BD)、精神分裂症(Schizophrenia)等四类极度不平衡的数据。
核心战绩:
- 性能飞跃:在最具挑战性的光谱任务(4类精神障碍预测)中,HILBERT 达到了 67.33% AUC,显著优于 CLAP 等预训练模型。
- 跨骨干网稳健性:无论使用 Whisper、HuBERT 还是 RoBERTa 作为 Backbones,HILBERT 的 Dual Contrastive 方案都比单纯的 Transfer Learning 强得多。

深度洞察:专家协作的力量 (MoE)
在分类阶段,HILBERT 使用了 Mixture of Experts (MoE)。实验证明,由于心理特征数据具有异质性(Heterogeneous),不同的 Expert 可以学到不同的“诊断逻辑”:有的专家擅长捕捉音频中的停顿(语义逻辑),有的专家擅长感知文本中的消极词汇。通过 Gating Network 动态加权,分类精度得到了进一步巩固。
总结与局限性
HILBERT 为长序列多模态融合提供了一个优雅的范式:
- 冻结 Backbone 以节省算力并防止过拟合。
- 对称对比 缓解模态偏移。
- 信息平衡 确保融合质量。
局限性:尽管实验效果显著,但该模型目前仍依赖于手动的序列分割(Segmentation)。未来的研究方向可能在于如何实现端到端的端文档处理,以及在纯无监督环境下的预训练潜力。
对于正在处理垂直领域医疗语音辅助诊断、或者长文本跨模态检索的开发者来说,HILBERT 的“关节中心对齐”策略非常值得借鉴。
