WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[arXiv 2026] ColParse:超越网格限制,布局感知开启高效视觉文档检索新纪元
总结
问题
方法
结果
要点
摘要

本文提出了 ColParse,一种基于布局感知的多向量检索(VDR)新范式。该方法通过文档解析模型将页面分割为语义独立的子图并与全局特征融合,在减少 95% 以上存储成本的同时,显著提升了跨 24 个数据集的检索表现。

TL;DR

传统的视觉文档检索(VDR)模型如 ColPali 虽强,但其庞大的切片向量序列给存储带来了“灾难级”负担。本文提出的 ColParse 彻底抛弃了机械的 PDF/图片切片网格,转而从文档布局结构入手。它通过将页面解析为极少数(通常 < 10 个)关键语义区域,并注入全局上下文,在减少 95%-99% 存储开销的同时,奇迹般地刷新了 24 个基准测试的 SOTA。

痛点深挖:向量存储的“不可能三角”

在视觉文档检索领域,研究者们长期在 精度(Accuracy)粒度(Fine-grained detail)存储成本(Storage Cost) 之间挣扎:

  • 多向量模型(如 ColPali):保留了极致的粒度,但在大规模部署时,每页上千个向量的存储成本令人望而却步。
  • 切片聚合/剪枝方案(如 Light-ColPali):试图通过聚类或删除冗余向量降噪,但这种基于数学分布而非语义结构的压缩,往往会“误伤”关键信息(如丢失表格中的小数字),导致性能极度不稳定。
  • 抽象 Token(如 MetaEmbed):利用可学习的 Token 压缩,但缺乏与物理布局(图中哪里是表格,哪里是图表)的显式对应,缺乏可解释性。

Methodology:ColParse 的艺术——从“网格”到“结构”

ColParse 的核心直觉是:人类在寻找文档信息时,是按区划(表格、标题、插图)过滤的,而非按像素网格。

1. 布局驱动的语义解构

ColParse 引入了高性能文档解析器(如 MinerU2.5),将页面切分为语义块 。这里的 往往是个位数,对应的是文档中真正的语义载体。

2. 双流编码与全局-局部融合 (Global-Local Fusion)

单纯的局部切片编码会丢失页面整体感(比如一个表格如果没有标题,就失去了上下文含义)。ColParse 巧妙地设计了加权元素级求和

这种融合方式既保留了局部的高分辨率细节,又通过全局向量 提供了宏观的上下文约束。

模型架构图

实验战绩:以一当百的降维打击

ColParse 在 10 个主流开源模型(VLM2Vec, GME, B3 等)上展现了惊人的通用性:

  • 性能暴涨:在 ViDoRe-V1 测试中,为 VLM2Vec-7B 带来了高达 +42.69 的 nDCG@5 提升。
  • 存储奇迹:即便与目前的 SOTA 多向量模型 ColQwen 相比,ColParse 在性能更优的前提下,向量存储数从 768 降到了 5.9,存储效率提升两个数量级。

实验结果对比

深度洞察:为什么 ColParse 会更强?

作者从**信息瓶颈(Information Bottleneck, IB)**的角度给出了理论解释:

  1. 解耦(Disentanglement):文档解析本质上是在做源信息的降噪,将无关的背景像素剔除,只保留核心语义通道。
  2. 语义浓度(Semantic Concentration):大多数检索查询的答案都集中在特定的单一布局区域(如某个特定的表格)。ColParse 正是利用了这种检索任务中的“局部性”先验。

此外,ColParse 带来了极佳的可解释性。当系统检索到一个页面时,它可以精准告诉用户是基于哪个“表格”或“段落”做出的判断,这对于金融审计、法律溯源等严肃场景至关重要。

局限性与展望

尽管 ColParse 效果卓越,但其依赖于离线的布局解析器,这增加了一定的冷启动(Indexing)耗时(约 0.81s/页)。未来的方向可能在于如何将解析能力直接内化进轻量级的 Embedding 模型中,或者开发更快的并发解析引擎。

总结

ColParse 的出现宣告了视觉文档检索从“暴力拼算力/存储”进入了“拼结构化理解”的阶段。它向我们证明:Layout Matters ! 深度理解文档的物理结构,才是通往高效多模态信息检索的捷径。

发现相似论文

试试这些示例

  • 查找其他利用文档解析技术(Document Parsing)辅助提升多模态检索模型效率或精度的最新研究。
  • 哪篇论文首次提出了 Late-interaction(延迟交互)机制(如 ColBERT),ColParse 是如何通过布局信息优化该机制的搜索空间的?
  • 调研将布局感知检索(Layout-Informed Retrieval)应用到复杂 RAG 系统中,以解决多页长文档推理问题的相关方法。
目录
[arXiv 2026] ColParse:超越网格限制,布局感知开启高效视觉文档检索新纪元
1. TL;DR
2. 痛点深挖:向量存储的“不可能三角”
3. Methodology:ColParse 的艺术——从“网格”到“结构”
3.1. 1. 布局驱动的语义解构
3.2. 2. 双流编码与全局-局部融合 (Global-Local Fusion)
4. 实验战绩:以一当百的降维打击
5. 深度洞察:为什么 ColParse 会更强?
6. 局限性与展望
7. 总结