WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
CogGen:打破线性枷锁,像人类专家一样编写深度调研报告
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 CogGen,一个受认知科学启发的递归式深度调研报告生成框架。该框架通过层次化递归架构(Hierarchical Recursive Architecture)模拟人类“计划-撰写-评审”的非线性写作过程,并引入抽象视觉表示(AVR)实现图文深度融合,在 Open-source 调研系统领域达到 SOTA 水平。

TL;DR

在自动生成深度调研报告的赛道上,现有的 LLM 驱动系统通常遵循“大纲 -> 检索 -> 填充”的线性逻辑。然而,真实的专家写作是递归且非线性的。今天介绍的 CogGen 框架,通过模拟人类的认知写作过程,引入了全局重构机制与抽象视觉表示 (AVR),实现了调研报告质量的质变,甚至在多模态协同度上超越了商用的 Gemini Deep Research。

背景:为什么 AI 写不好调研报告?

深度调研不仅是事实的堆砌,更是复杂的逻辑编排。现有方法的局限性在于:

  1. 线性锁定 (Linear Lock-in):一旦写到第五章,即使发现了能推翻第一章架构的新证据,模型也无法回过头去重构全局逻辑。
  2. 图文脱节:图表往往是“后补”上去的附件,而非与叙事深度耦合的论据,导致读者在阅读时产生严重的视觉-语义断层。

核心架构:层次化递归 (Hierarchical Recursive Architecture)

CogGen 将调研过程拆解为两个核心认知环路:

1. 宏观认知环路 (Macro-Cognitive Loop)

这是系统的“指挥中心”。它包含 Planner (计划者)Writer (撰写者)Reviewer (评审者) 三个角色。不同于传统的一遍过流程,CogGen 支持逆向重构 (Backward Restructuring)。当 Reviewer 发现后续章节的内容可以优化全局逻辑时,它会触发 ∆ 信号反馈给 Planner,重新调整大纲。

2. 微观认知周期 (Micro-Cognitive Cycle)

在具体段落的撰写中,Writer 会进入“搜索-重编-撰写”的微循环。为了防止多个段落同时修改导致的“上下文振荡”,作者天才地设计了延迟更新策略 (Deferred Update Policy):微观层只观察不修改,所有冲突交给宏观层的 Reviewer 统一裁决。

模型架构图

视觉意图的“降维打击”:Abstract Visual Representation (AVR)

CogGen 处理图文融合的思路非常巧妙。它并没有让 LLM 直接写复杂的 ECharts 或 Mermaid 代码,而是定义了一套类似语言的抽象视觉表示 (AVR)

  • 逻辑:Writer 只负责描述“我要一张对比 A 和 B 增长趋势的柱状图”,而不必关心像素颜色。
  • 认知卸载 (Cognitive Offloading):这极大地减轻了模型的负担,让其专注于逻辑推理。具体的“脏活累活”(渲染代码生成)交给专门的 Render Agent 处理。
  • 效果:通过这种方式,系统可以在正式出图前,针对 AVR 进行数据校验。实验对比显示,AVR + 验证机制将图表幻觉率惊人地从 67% 降至 28%。

实验战绩与 SOTA 表现

作者提出了 CLEF (认知负荷评估框架),从五个维度(组织、深度、相关性、对齐、协同)评估报告。

  • Dataset I (OWID):CogGen 在组织结构上接近人类专家水平,在内容深度上甚至由于提供了更广阔的因果背景而超越了人类。
  • 对比 Gemini Deep Research:在 WildSeek 数据集上,CogGen 在多模态协同(Synergy)维度上取得了 80% 的胜率。

实验结果对比

总结与洞察

CogGen 的成功不仅仅是由于更强的模型,而是源于对人类写作认知本质的深刻洞察:

  • 递归是智能的体现:能够不断否定先前的假设并自我重构,是通往专家级 AI 的必经之路。
  • 中间层的价值:AVR 机制提醒我们,在复杂多模态任务中,直接生成最终结果并非最优解,合理的中间抽象层能显著提升系统可靠性。

局限性:尽管效果惊人,但递归机制带来了约 20 分钟的生成延迟(主要耗时在网页全量读取与摘要)。未来的优化方向将是如何在保持保真度的条件下缩短推理时间。


关键词: CogGen, Deep Research, Multi-agent, Recursive Architecture, AVR, LLMs.

Find Similar Papers

Try Our Examples

  • 查找最近一年内利用非线性规划或递归结构改进长文本生成(Long-form Generation)的 SOTA 调研论文。
  • 哪些研究最早探讨了 Agent 架构中的“上下文振荡(Contextual Oscillation)”问题,以及除了延迟更新外还有哪些解决方案?
  • 调研目前除了 AVR 以外,还有哪些利用中间表示层实现多模态 LLM 图文深度对齐(Semantic Alignment)的技术路线?
Contents
CogGen:打破线性枷锁,像人类专家一样编写深度调研报告
1. TL;DR
2. 背景:为什么 AI 写不好调研报告?
3. 核心架构:层次化递归 (Hierarchical Recursive Architecture)
3.1. 1. 宏观认知环路 (Macro-Cognitive Loop)
3.2. 2. 微观认知周期 (Micro-Cognitive Cycle)
4. 视觉意图的“降维打击”:Abstract Visual Representation (AVR)
5. 实验战绩与 SOTA 表现
6. 总结与洞察