A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

A Mixture-of-Experts Model for Multimodal Emotion Recognition in Conversations

[arXiv 2024] MiSTER-E：解耦上下文与融合，混合专家模型刷新对话情感识别记录

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 MiSTER-E，一种用于对话情感识别（ERC）的模块化混合专家（MoE）框架。该方法利用微调后的 LLaMA-3.1 和 SALMONN 提取语音与文本嵌入，通过决策层（Logit-level）的 MoE 门控机制动态集成单模态专家与多模态专家的预测结果，在 IEMOCAP、MELD 和 MOSI 数据集上均创下了新的 SOTA 纪录。

TL;DR

传统的对话情感识别（ERC）模型往往将模态融合与上下文建模耦合在一起，导致在处理模态能力极度不平衡的数据集时表现乏力。本文提出的 MiSTER-E 通过“解耦”思想，利用 LLaMA-3.1 和 SALMONN 作为底层编码器，构建了一个包含语音、文本及融合分支的 Mixture-of-Experts (MoE) 架构。它不依赖说话人身份（Speaker ID），却在 IEMOCAP、MELD 和 MOSI 三大榜单上悉数刷新了 SOTA。

1. 痛点深挖：融合的“陷阱”

在对话场景中，识别情感有两个公认的难题：

上下文依赖：一句话的意思往往取决于前文（Temporal Context）。
模态互补与干扰：语音的语调和文本的语义通常互补，但当一段录音噪声极大（语音失效）或文本平淡（语义模糊）时，盲目的特征融合（Feature Fusion）反而会引入噪声。

作者发现，现有的“单体式”模型试图在一个流程里解决这两个问题，导致模型在通过上下文学习情感流转时，无法灵活地在失效的模态间进行“舍弃”。

2. Methodology：MiSTER-E 的模块化艺术

MiSTER-E 的核心在于其**决策层融合（Decision-level Fusion）**的专家系统。

2.1 底层：LLM 与 SLLM 的强力表征

模型不再使用传统的静态 Embedding，而是通过 LoRA 微调了：

文本端：LLaMA-3.1-8B。
语音端：SALMONN-7B（一种强大的感知型语音大模型）。

2.2 核心：Context Addition Network (CAN)

为了捕捉对话长程依赖，作者设计了 CAN 模块。它先通过 Temporal Inception Network (TIN) 用不同尺度的卷积核（1, 3, 5）抓取局部邻域特征，再接一个 Bi-GRU 覆盖全局。

模型总架构图 图 1：MiSTER-E 总体流水线。注意其独立训练专家、最后门控集成的特征。

2.3 决策层 MoE 门控

这是全书的“点睛之笔”。MiSTER-E 维护了三个专家分支：

Speech Expert（纯语音上下文）
Text Expert（纯文本上下文）
Multimodal Expert（基于 Cross-Attention 的融合特征）

最终结果并不是简单的加权平均，而是通过一个可学习的门控网络（Gating Network），动态地为每个对话回合（Utterance）分配权重。

3. 实验战绩：全线突破

MiSTER-E 在多个维度验证了其优越性。在 MELD 数据集（其文本模态远强于语音）上，MoE 成功识别到这一点并赋予文本专家更高权重，从而大幅领先前人。

实验结果对比 表 1：MiSTER-E 与 SOTA 方法对比。在所有数据集上均优于之前的最佳模型（如 HCAM, Mamba-like-model）。

关键发现：

决策层融合 > 特征层融合：在 IEMOCAP 上，将融合点从 Logit 提早到 Feature 会导致 2.6% 的性能损失。这证明了保留单模态决策的独立性对最终性能至关重要。
一致性正则（KL-Loss）：通过 KL 散度让单模态专家向多模态专家对齐，能显著增强训练稳定性。

4. 深度洞察：为什么有效？

传统的 ERC 模型往往在 IEMOCAP 这种模态平衡的数据集上表现尚可，但在 MELD 这种语音质量参差不齐的数据集上表现极差。

专家权重分布 图 2：专家权重分析。可以看到对于 MELD 数据集，模型几乎完全倾斜于 Text Expert，这种动态自适应能力是其取胜的关键。

5. 总结与反思

MiSTER-E 展示了一个清晰的趋势：在多模态理解任务中，“大力出奇迹（LLM/SLLM）” + “精巧的解耦架构（MoE）” 是通往 SOTA 的捷径。

局限性：虽然性能爆发，但 14B 参数量的推理成本不容忽视。在实时客服场景或移动端部署时，如何通过蒸馏技术将这些“大模型专家”的知识迁移到参数量更小的学生模型中，将是下一个值得探讨的研究方向。

Takeaway: 如果你的系统在多模态融合后效果反而不如单模态，请务必尝试决策层 MoE。

Find Similar Papers

Try Our Examples

查找最近一年内其他在对话情感识别（ERC）任务中使用 Mixture-of-Experts (MoE) 架构的论文成果。
探究 SALMONN 这种语音大语言模型在情感分类任务中的底层表征提取原理及其相比 Wav2Vec 2.0 的优势。
调研如何将 MiSTER-E 的决策层门控机制扩展到包含视觉模态的三模态（Text-Audio-Video）对话情感识别系统中。

Contents

[arXiv 2024] MiSTER-E：解耦上下文与融合，混合专家模型刷新对话情感识别记录

1. TL;DR

2. 1. 痛点深挖：融合的“陷阱”

3. 2. Methodology：MiSTER-E 的模块化艺术

3.1. 2.1 底层：LLM 与 SLLM 的强力表征

3.2. 2.2 核心：Context Addition Network (CAN)

3.3. 2.3 决策层 MoE 门控

4. 3. 实验战绩：全线突破

4.1. 关键发现：

5. 4. 深度洞察：为什么有效？

6. 5. 总结与反思