MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

[Interspeech 2025] MUGEN：打破单音频禁锢，大模型多音频理解能力的深度审计

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 MUGEN，一个旨在评估和提升大语言音频模型（LALMs）多音频理解能力的综合基准。该基准涵盖语音、通用音频和音乐三大领域，包含 7 个维度的 35 个评估任务。实验表明，当前多模态模型在处理多个并发音频输入时存在严重的性能瓶颈。

TL;DR

虽然大语言音频模型（LALMs）在单音频任务上已接近人类水平，但在需要同时对比、聚合多个音频信息的“多音频理解”场景下却表现拉胯。来自国立台湾大学的研究团队推出了 MUGEN 基准测试，揭示了模型在处理非语义属性（如同僚情感、音乐节奏）和多音频扩展时的巨大瓶颈。研究发现，通过简单的**音频排列置换（APSC）**策略，无需重新训练即可显著提升模型性能。

痛点深挖：模型真的是“顺风耳”吗？

目前的 LALM 研究大多处于“单声道”思维：给模型一段音频，让它转录或分析。但在实际场景中，比如语音 RAG（检索增强生成）或长篇会议分析，模型必须具备在多个片段之间进行横向对比的能力。

作者指出，现有方法的局限性在于：

语义依赖：很多模型通过文本转录（ASR）走捷径，并未真正理解声音背后的物理属性（如音色、情感）。
尺度限制：现有的测评通常只给模型 2 个选项，无法体现模型在处理复杂长上下文时的衰减。

MUGEN：全方位的听觉考试

MUGEN 包含 7 个评估维度，跨越了从语义到纯声学的全频谱：

语义与语用 (S&P)：内容理解。
说话人与人口统计 (S&D)：身份、口音辨识。
情感与副语言 (A&P)：情绪、韵律。
时间感知 (TA)：音频长短、节奏。
声学场景与事件 (AS&E)：环境音分析。
音乐分析 (MA)：流派、乐器。
复合声学推理 (CA)：跨维度的综合对比。

模型架构图 图注：MUGEN 的“音频即选项”设计。不同于选择题的文本选项，这里 A/B/C/D 都是音频信号，强迫模型在隐空间进行声学对比。

核心发现：输入越多，智商越低？

研究团队测试了包括 Qwen2.5-Omni、Phi-4-Multimodal 以及 Gemini-3-pro 在内的多款前沿模型，得出了几个令人警醒的结论：

1. 严重的性能滑坡

随着输入音频候选项（Options）数量的增加，即便是目前最强的 Gemini 模型也出现了明显的性能下降。当选项从 2 个增加到 5 个时，性能损失可达 20%-50%。

2. 非语义理解的“盲区”

在语义理解维度，模型依靠强大的 LLM 底座能拿到高分；但在**时间感知（TA）和副语言状态（A&P）**上，模型表现糟糕，甚至不及简单的级联系统（ASR+LLM）。这说明目前的端到端 LALMs 在声学特征编码上依然存在“信息丢失”。

实验结果对比 图注：性能随音频输入数量增加而退化的曲线。Qwen2.5-Omni (a) 的退化趋势比 Gemini 更加陡峭。

改进策略：音频排列自我一致性 (APSC)

针对模型对音频输入顺序敏感（即 Positional Bias）的问题，作者提出了一种无需微调的方案：Audio-Permutational Self-Consistency (APSC)。

直觉： 如果模型因为某个音频放在第一个位置就倾向于选它，那么我们把顺序打乱投 10 次票，最终的结果就会更公正。

实验结果表明：

CoT（思维链）效果有限：单纯让模型“想一想”对提升音频感知帮助不大，因为瓶颈在“听不懂”而非“想不通”。
APSC 效果显著：在 Gemini-3-pro 上带来了 6.28% 的绝对精度提升。

提升效果表 图注：各种微调策略下的性能对比，可以看到 APSC+CoT 达到了峰值。

总结与洞察

MUGEN 的出现为 LALM 的研究指明了新的方向：

感知是第一生产力：音频模型的逻辑推理能力（LLM 部分）已经很强，但声学输入的细粒度特征（Encoder 部分）仍是短板。
位置偏见不可忽视：多模态模型在处理多个 Token 流时，依然深受输入顺序的影响。
未来之路：我们需要开发更强大的长音频编码器，或者能支持更高并发音频输入的架构。

这篇论文通过一个严谨的 Benchmark，把 LALM 从“只能听懂一句话”的幻想中拉回了现实，是音频领域值得深读的评估框架。

Find Similar Papers

Try Our Examples

查找最近其他试图解决大语言音频模型（LALMs）在多音频输入下的位置偏见或序列处理瓶颈的论文。
哪篇论文最早提出了音频上下文学习（Audio In-Context Learning），本文的 MUGEN 基准是如何在复杂度上对其进行扩展的？
有哪些研究将类似音频排列（Audio Permutation）的增强策略应用到了多模态对话或长视频理解任务中？

Contents

[Interspeech 2025] MUGEN：打破单音频禁锢，大模型多音频理解能力的深度审计

1. TL;DR

2. 痛点深挖：模型真的是“顺风耳”吗？

3. MUGEN：全方位的听觉考试

4. 核心发现：输入越多，智商越低？

4.1. 1. 严重的性能滑坡

4.2. 2. 非语义理解的“盲区”

5. 改进策略：音频排列自我一致性 (APSC)

6. 总结与洞察