本文提出了 CogGen,一个受认知科学启发的递归式深度调研报告生成框架。该框架通过层次化递归架构(Hierarchical Recursive Architecture)模拟人类“计划-撰写-评审”的非线性写作过程,并引入抽象视觉表示(AVR)实现图文深度融合,在 Open-source 调研系统领域达到 SOTA 水平。
TL;DR
在自动生成深度调研报告的赛道上,现有的 LLM 驱动系统通常遵循“大纲 -> 检索 -> 填充”的线性逻辑。然而,真实的专家写作是递归且非线性的。今天介绍的 CogGen 框架,通过模拟人类的认知写作过程,引入了全局重构机制与抽象视觉表示 (AVR),实现了调研报告质量的质变,甚至在多模态协同度上超越了商用的 Gemini Deep Research。
背景:为什么 AI 写不好调研报告?
深度调研不仅是事实的堆砌,更是复杂的逻辑编排。现有方法的局限性在于:
- 线性锁定 (Linear Lock-in):一旦写到第五章,即使发现了能推翻第一章架构的新证据,模型也无法回过头去重构全局逻辑。
- 图文脱节:图表往往是“后补”上去的附件,而非与叙事深度耦合的论据,导致读者在阅读时产生严重的视觉-语义断层。
核心架构:层次化递归 (Hierarchical Recursive Architecture)
CogGen 将调研过程拆解为两个核心认知环路:
1. 宏观认知环路 (Macro-Cognitive Loop)
这是系统的“指挥中心”。它包含 Planner (计划者)、Writer (撰写者) 和 Reviewer (评审者) 三个角色。不同于传统的一遍过流程,CogGen 支持逆向重构 (Backward Restructuring)。当 Reviewer 发现后续章节的内容可以优化全局逻辑时,它会触发 ∆ 信号反馈给 Planner,重新调整大纲。
2. 微观认知周期 (Micro-Cognitive Cycle)
在具体段落的撰写中,Writer 会进入“搜索-重编-撰写”的微循环。为了防止多个段落同时修改导致的“上下文振荡”,作者天才地设计了延迟更新策略 (Deferred Update Policy):微观层只观察不修改,所有冲突交给宏观层的 Reviewer 统一裁决。

视觉意图的“降维打击”:Abstract Visual Representation (AVR)
CogGen 处理图文融合的思路非常巧妙。它并没有让 LLM 直接写复杂的 ECharts 或 Mermaid 代码,而是定义了一套类似语言的抽象视觉表示 (AVR)。
- 逻辑:Writer 只负责描述“我要一张对比 A 和 B 增长趋势的柱状图”,而不必关心像素颜色。
- 认知卸载 (Cognitive Offloading):这极大地减轻了模型的负担,让其专注于逻辑推理。具体的“脏活累活”(渲染代码生成)交给专门的 Render Agent 处理。
- 效果:通过这种方式,系统可以在正式出图前,针对 AVR 进行数据校验。实验对比显示,AVR + 验证机制将图表幻觉率惊人地从 67% 降至 28%。
实验战绩与 SOTA 表现
作者提出了 CLEF (认知负荷评估框架),从五个维度(组织、深度、相关性、对齐、协同)评估报告。
- Dataset I (OWID):CogGen 在组织结构上接近人类专家水平,在内容深度上甚至由于提供了更广阔的因果背景而超越了人类。
- 对比 Gemini Deep Research:在 WildSeek 数据集上,CogGen 在多模态协同(Synergy)维度上取得了 80% 的胜率。

总结与洞察
CogGen 的成功不仅仅是由于更强的模型,而是源于对人类写作认知本质的深刻洞察:
- 递归是智能的体现:能够不断否定先前的假设并自我重构,是通往专家级 AI 的必经之路。
- 中间层的价值:AVR 机制提醒我们,在复杂多模态任务中,直接生成最终结果并非最优解,合理的中间抽象层能显著提升系统可靠性。
局限性:尽管效果惊人,但递归机制带来了约 20 分钟的生成延迟(主要耗时在网页全量读取与摘要)。未来的优化方向将是如何在保持保真度的条件下缩短推理时间。
关键词: CogGen, Deep Research, Multi-agent, Recursive Architecture, AVR, LLMs.
