GLM-OCR Technical Report

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

GLM-OCR Technical Report

[Tech Report] GLM-OCR：以 0.9B 参数量在文档解析中“以小博大”

总结

问题

方法

结果

要点

摘要

GLM-OCR 是由智谱 AI 与清华大学联合推出的轻量级多模态 OCR 模型，参数量仅为 0.9B（0.4B 视觉编码器 + 0.5B 语言解码器）。该模型通过引入多 Token 预测（MTP）机制和两阶段处理流水线，在保持极高推理效率的同时，在 OmniDocBench 等多个权威 OCR 榜单上取得了 SOTA 成就。

TL;DR

智谱 AI 发布了 GLM-OCR，一个专门为真实生产环境设计的 0.9B 超轻量多模态模型。它不仅能精准识别文字、公式和复杂表格，还通过 多 Token 预测 (MTP) 技术将解码效率提升了约 50%。在 OmniDocBench v1.5 评测中，它以不到 1B 的参数规模，击败了参数量过百倍的 Qwen3-VL 和 Gemini-3 Pro，重新定义了 OCR 领域的模型效率。

1. 痛点：大模型的“慢”与小模型的“晕”

在文档智能化（Document Intelligence）领域，研究人员常面临两难选择：

大模型 (MLLMs)：虽然理解力强，但像“大炮轰蚊子”，自回归解码一个 token 接一个 token 的速度在处理长表格时慢得令人发指。
传统 Pipeline：快，但在面对复杂的科学论文、财务报表或手写体时，由于缺乏语义理解，经常出现布局错乱、文字复读等“幻觉”现象。

GLM-OCR 的设计直觉在于：OCR 本质是一个确定性极强的任务。既然文本内容就在图片里，为什么不能让模型一次多看几个字、多吐几个词？

2. 核心架构：高效的“感知-解码”双奏

GLM-OCR 延续了 GLM 系列的 Vision-Language 范式，主要由三部分组成：

视觉编码器 (CogViT, 0.4B)：提取文档的高维空间特征。
多模态连接器 (Connector)：将视觉信号对齐到语言空间。
语言解码器 (GLM, 0.5B)：负责将特征转化为 Markdown、JSON 等结构化文本。

模型架构图 图 1：GLM-OCR 的整体工作流，包含布局分析、区域裁剪及并行识别过程

核心创新：Multi-Token Prediction (MTP)

为了打破单 Token 解码的性能瓶颈，作者引入了 MTP 机制。

Why? OCR 任务中，如 Markdown 的表格符号 | 、表格后的数字等具有极强的局部依赖性。
How? 在主预测头之外，增加 $k$ 个共享参数的辅助头。训练时预测未来 $k$ 个偏移量的 Token，推理时实现一次推断生成多个 Token。
效果：推理吞吐量提升 ~50%，同时 MTP 强迫模型进行“超前规划”，减少了结构性标签（如 HTML 标签不闭合）的报错。

3. 训练秘籍：从对齐到强化学习

GLM-OCR 的进化经历了四个阶段：

Stage 1 & 2：百亿级图文对预训练，完成视觉到语言的基础对齐。
Stage 3 (SFT)：在高质量 OCR 数据集（公式、表格、KIE）上进行超精细微调。
Stage 4 (RL)：引入 GRPO (Group Relative Policy Optimization)。针对表格、公式等任务设计专门的 Reward 函数，例如：
- 表格：验证 HTML 标签是否正确闭合。
- 公式：验证 LaTeX 语法是否合法。
- KIE：验证 JSON 格式的解析正确率。

4. 实验战绩：跨级别的统治力

在学术界最权威的 OmniDocBench v1.5 榜单上，GLM-OCR 展示了惊人的实力。

实验结果对比 表 1：GLM-OCR 与各大模型在 OmniDocBench 上的细分对比

深度分析：

表格解析 (Table TEDS)：GLM-OCR 在表格结构还原上的表现（93.96）甚至超过了专业的闭源模型，这得益于其并行区域处理和 MTP 对长结构化序列的建模能力。
边缘场景 (Real-world Scenarios)：在印章识别（Seal Recognition）上，GLM-OCR 跑出了 90.5 的高分，领先同量级开源模型（dots.ocr, 63.0）达 40% 以上。

5. 局限性与洞察

尽管 GLM-OCR 表现出色，但仍存在一定的局限：

两阶段依赖：极其依赖第一阶段 PP-DocLayout 的准确性，若布局检测出错，后续识别会产生级联错误。
极端样本：在超低分辨率或极罕见语言上的鲁棒性仍有提升空间。

总结 (Takeaway)： GLM-OCR 的成功证明了：在垂直领域，模型的大小并不是性能的唯一决定因素。通过模块化的流水线设计（Layout + Recognition）和针对任务特性优化的解码策略（MTP），0.9B 的小模型完全可以实现在工业级场景对百亿、千亿级通用大模型的“降维打击”。

注：GLM-OCR 已全面开源。代码：github.com/zai-org/GLM-OCR；模型：huggingface.co/zai-org/GLM-OCR

发现相似论文

试试这些示例

查找最近其他在视觉语言模型（VLM）中应用多 Token 预测（Multi-Token Prediction）技术以提升推理效率的论文。
哪篇论文最早提出了 GRPO（Group Relative Policy Optimization）强化学习算法，GLM-OCR 是如何将其应用于结构化数据校验的？
调研当前文档解析领域中，除了两阶段（布局分析+区域识别）架构外，有哪些端到端直接生成 Markdown 的最新 SOTA 方法？

[Tech Report] GLM-OCR：以 0.9B 参数量在文档解析中“以小博大”

1. TL;DR

2. 1. 痛点：大模型的“慢”与小模型的“晕”

3. 2. 核心架构：高效的“感知-解码”双奏

3.1. 核心创新：Multi-Token Prediction (MTP)

4. 3. 训练秘籍：从对齐到强化学习

5. 4. 实验战绩：跨级别的统治力

6. 5. 局限性与洞察