WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[CVPR 2026预研] FireRed-OCR:小红书开源 2B 专家模型,以强化学习终结“结构化幻觉”
Summary
Problem
Method
Results
Takeaways
Abstract

本文推出了 FireRed-OCR,一个由小红书团队开发的系统性框架,旨在将通用多模态大模型(基于 Qwen3-VL-2B)转化为高性能的结构化 OCR 专家。该模型在 OmniDocBench v1.5 上以 92.94% 的高分刷新了 SOTA 纪录,超越了 DeepSeek-OCR 2 等强劲基线。

TL;DR

在文档智能化(Document Intelligence)领域,虽然通用多模态大模型(VLM)已经展现了强大的语义理解能力,但在面对金融报表、科研论文等复杂文档时,往往会卡在“最后一步”:结构化幻觉。小红书团队发布的 FireRed-OCR 提出了一套从数据工厂到三阶段训练的完整范式,仅凭 2B 的参数量,就在 OmniDocBench v1.5 上超越了 DeepSeek-OCR 2 和一系列巨型模型,成为当前开源界最强的结构化 OCR 专家。

1. 痛点:为什么通用 VLM 做不好 OCR?

作者指出,通用 VLM 懂“语义(Intent)”但不懂“规则(Rules)”。在处理复杂布局时,常出现以下三类幻觉:

  • 表格崩坏:Markdown 表格的管道符(|)对不齐,行列缺失。
  • 公式乱码:LaTeX 语法无法编译,符号嵌套错误。
  • 逻辑迷失:双栏布局下阅读顺序混乱。

这种现象本质上是因为模型在预训练阶段缺乏对细粒度空间坐标严格语法约束的感知。

2. 核心武器一:几何+语义数据工厂

为了喂出“高质量”的模型,FireRed-OCR 拒绝盲目堆叠数据量。

  • 几何聚类 (Geometric Clustering):利用图像编码器提取布局拓扑特征,对文档进行聚类。这种方法能精准剔除冗余的简单文本页,挖掘出“长尾”的复杂布局(如嵌套表、不规则表单)。
  • 专家蒸馏 (Expert Refinement):对于初始 OCR 失败的“硬样本”,引入 Gemini 3 Pro 等顶级模型进行纠错和重构,确保 Ground Truth 的“像素级”精度。

数据处理流水线 Figure 1: FireRed-OCR 的数据生产线,通过五个阶段实现从原始数据到“高辛烷值燃料”的转化。

3. 核心武器二:三阶段渐进式训练

如何“驯服”一个通用模型成为结构化专家?作者设计了由易到难的 Curriculum:

Phase 1: 多任务预对齐 (Pre-alignment)

要求模型同时输出检测框(Bounding Box)和文本,强制视觉编码器(Visual Encoder)关注精确的空间位置。

Phase 2: 专业化 SFT

在 40 万对高质量 Markdown 数据上进行微调,规范输出格式。作者发现一个有趣的 Insight先用粗标注训练,再用精标注微调,效果远好于全程使用精标注。这为模型提供了一个更平滑的收敛路径。

Phase 3: 格式约束 GRPO (核心突破)

这是本文的“点睛之笔”。引入 Group Relative Policy Optimization (GRPO) 算法,设计了四类硬约束奖励:

  1. 公式语法奖励:编译失败直接扣分。
  2. 层级闭合奖励:未闭合的 Markdown 标签受罚。
  3. 表格完整性奖励:行列不匹配则奖励归零。
  4. 内容准确性奖励:保证在规范格式的同时不丢字错字。

模型架构与训练流程 Figure 2: 三阶段训练框架,重点展示了 Stage 3 中 GRPO 的奖励反馈机制。

4. 实验表现:2B 参数的“越级挑战”

在 OmniDocBench v1.5 指标下,FireRed-OCR-2B 的表现令人惊叹:

  • 总分 92.94,超越 DeepSeek-OCR 2 (91.09)。
  • 表格处理 (Table TEDS):得分 90.31,大幅领先 GPT-4o (67.07) 和 Qwen3-VL-235B (86.21)。
  • 文本精度:编辑距离(Edit Distance)降至 0.032,达到了专家级水平。

实验结果对比 Figure 3: 在 OmniDocBench v1.5 上的详细得分,FireRed-OCR 在各类细分任务中均表现卓越。

5. 深度洞察:为什么这种范式行得通?

  1. 协同效应 (Synergistic Gains):作者发现,即使只在“坐标检测”任务上加 GRPO 约束,主任务的文本识别能力也会提升。这说明物理感知的增强会反哺语义理解。
  2. 对抗奖励黑客 (Iterative SFT-GRPO):纯 RL 容易导致模型生成“格式完美但内容空洞”的回复(Reward Hacking)。通过 SFT 和 GRPO 交替迭代,模型在保持忠实度的同时提高了结构严密性。

结论与展望

FireRed-OCR 不仅提供了一个强大的开源模型,更贡献了一套从通用到专用的可复现模型进化路径。它告诉我们,在大模型时代,领域专家(Specialized Expert)不需要巨大的参数量,精细化的数据工程与针对性的强化学习约束才是打破性能天花板的关键。


项目地址GitHub - FireRedTeam/FireRed-OCR 模型权重HuggingFace - FireRedTeam/FireRed-OCR

Find Similar Papers

Try Our Examples

  • 查找最近其他使用 GRPO 或强化学习技术来优化多模态大模型 (VLM) 输出格式规范性的研究。
  • 追溯 Group Relative Policy Optimization (GRPO) 的首次提出文献,并调研其相比 PPO 在大模型对齐中的显性优势。
  • 调研当前 SOTA 文档解析模型在处理多栏布局和复杂嵌套表格时的主要挑战及最新解决方案。
Contents
[CVPR 2026预研] FireRed-OCR:小红书开源 2B 专家模型,以强化学习终结“结构化幻觉”
1. TL;DR
2. 1. 痛点:为什么通用 VLM 做不好 OCR?
3. 2. 核心武器一:几何+语义数据工厂
4. 3. 核心武器二:三阶段渐进式训练
4.1. Phase 1: 多任务预对齐 (Pre-alignment)
4.2. Phase 2: 专业化 SFT
4.3. Phase 3: 格式约束 GRPO (核心突破)
5. 4. 实验表现:2B 参数的“越级挑战”
6. 5. 深度洞察:为什么这种范式行得通?
7. 结论与展望