Diversity Collapse in Multi-Agent LLM Systems: Structural Coupling and Collective Failure in Open-Ended Idea Generation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Diversity Collapse in Multi-Agent LLM Systems: Structural Coupling and Collective Failure in Open-Ended Idea Generation

走出回声筒：为什么更多的 AI 专家聚在一起反而更难产生新创意？

Summary

Problem

Method

Results

Takeaways

Abstract

本文对多智能体系统（MAS）在开放式创意生成中的“多样性坍塌”现象进行了系统性实证研究。通过分析 10,000 份科研提案，揭示了模型对齐、权力等级架构和密集通信拓扑如何共同导致系统陷入“集体失败”，提出保留独立性与分歧是维持 MAS 创造力的核心。

TL;DR

在多智能体系统（MAS）的宣传中，我们常听到“众人拾柴火焰高”。但最新研究《Diversity Collapse in Multi-Agent LLM Systems》给这一直觉泼了盆冷水：研究发现，由于底层模型的对齐偏见和不当的互动结构，多智能体系统极易陷入多样性坍塌（Diversity Collapse）。简单增加智能体数量或引入高级专家角色，往往不仅无法带来创新，反而会加速系统走向平庸的共识。

核心矛盾：计算效率悖论

文章开篇提出了一个令人深思的计算效率悖论：随着基础模型（Foundation Models）能力的增强和对齐（Alignment）的深入，它们的输出确实变得更加流畅、正确，但在语义上却惊人地趋同。

现状：MAS 往往建立在同质化的模型之上，这些模型共享相同的预训练分布。
后果：多智能体互动并没有引入真正的“变量”，而是在以更高的计算代价重复搜索同一块狭窄的流形（Manifold）。

为什么“专家”会害了你的 MAS？

在认知层面的分析中，研究者揭示了一个扎心的事实：权威诱导的坍塌。

模型架构与设计原则

正如上图所示，实验对比了“Naive（原生）”、“Leader-Led（领导力驱动）”和“Horizontal（水平协作）”等结构。结果显示：

阿谀奉承陷阱：在专家引导的结构中，初级智能体会快速向专家的向量靠拢，优先选择“同意”而非独立批判。
保守集群：通过 UMAP 降维可以清晰看到，专家驱动的结构（如 Interdisciplinary）聚集在语义空间的“保守区”，而初级研究员自发的水平协作反而能冲向“创新前沿”。

语义机制分布图

给 MAS 设计者的三条结构性建议

1. 规模不等于力量

研究发现，组大小的扩展遵循边际效用递减。当 N 从 3 增加到 7 时，多样性利用率（Vendi/N）从 1.03 暴跌至 0.47。如果没有结构化干预，盲目增加 Agent 只会产生冗余。

2. 拥抱“盲写”：名义小组技术 (NGT)

为了对抗过早收敛，研究推荐采用 NGT 技术：在讨论前增加一个独立生成阶段。实验证明（见下图），NGT 在初始阶段能提供最高的语义多样性，有效防止了“锚定效应”。

干预机制对比

3. 构建“局部发散口袋”：子组隔离

文章提出的 Subgroups（子组拓扑） 展现了极强的韧性。通过将社交图谱分割，可以在后期维持稳定的“建设性冲突”密度。这种“局部独立性”是防止系统过早达成虚假共识（False Consensus）的关键。

深度洞察：在混沌边缘搜索

作者指出，科研创意生成（AI Research）是一个处于**混沌边缘（Edge of Chaos）**的任务——它既需要严密的逻辑，又需要开放的想象力。

集体的失败：当互动的压力（Dynamics）迫使系统追求“正确性”和“协作性”时，智能体会为了满足集体压力而牺牲未经证实但极具潜力的创新想法。
结构化耦合：多样性的流失不是因为模型能力不够，而是因为参与者被互动的结构“锁死”在了同步的轨迹上。

结论：少一点共识，多一点独立

这项研究为我们设计协作式 AI 提供了新的坐标系。真正的多智能体智能，不应仅仅是信息的平滑融合，而应是受控的分歧。如果你想让你的 Agent 团队产生 Best Paper 级别的想法，请先从打破它们的“专家等级”和“密集信息共享”开始。

关键词：MAS, 多样性坍塌, Vendi Score, 结构化耦合, 建设性冲突

Find Similar Papers

Try Our Examples

查找最近其他探讨大语言模型（LLM）由于强化学习人类反馈（RLHF）导致输出同质化或知识空间坍塌的论文。
哪篇论文最早引入了名义小组技术（NGT）到多智能体协作中，本文在何种程度上改进了其在 AI 领域的应用？
有哪些研究将本文提到的“子组隔离”与“随机拓扑”方法应用到了自动化科学发现（AI for Science）或多模态创意设计任务中？

Contents

走出回声筒：为什么更多的 AI 专家聚在一起反而更难产生新创意？

1. TL;DR

2. 核心矛盾：计算效率悖论

3. 为什么“专家”会害了你的 MAS？

4. 给 MAS 设计者的三条结构性建议

4.1. 1. 规模不等于力量

4.2. 2. 拥抱“盲写”：名义小组技术 (NGT)

4.3. 3. 构建“局部发散口袋”：子组隔离

5. 深度洞察：在混沌边缘搜索

6. 结论：少一点共识，多一点独立