GLM-OCR 是由智谱 AI 与清华大学联合推出的轻量级多模态 OCR 模型,参数量仅为 0.9B(0.4B 视觉编码器 + 0.5B 语言解码器)。该模型通过引入多 Token 预测(MTP)机制和两阶段处理流水线,在保持极高推理效率的同时,在 OmniDocBench 等多个权威 OCR 榜单上取得了 SOTA 成就。
TL;DR
智谱 AI 发布了 GLM-OCR,一个专门为真实生产环境设计的 0.9B 超轻量多模态模型。它不仅能精准识别文字、公式和复杂表格,还通过 多 Token 预测 (MTP) 技术将解码效率提升了约 50%。在 OmniDocBench v1.5 评测中,它以不到 1B 的参数规模,击败了参数量过百倍的 Qwen3-VL 和 Gemini-3 Pro,重新定义了 OCR 领域的模型效率。
1. 痛点:大模型的“慢”与小模型的“晕”
在文档智能化(Document Intelligence)领域,研究人员常面临两难选择:
- 大模型 (MLLMs):虽然理解力强,但像“大炮轰蚊子”,自回归解码一个 token 接一个 token 的速度在处理长表格时慢得令人发指。
- 传统 Pipeline:快,但在面对复杂的科学论文、财务报表或手写体时,由于缺乏语义理解,经常出现布局错乱、文字复读等“幻觉”现象。
GLM-OCR 的设计直觉在于:OCR 本质是一个确定性极强的任务。既然文本内容就在图片里,为什么不能让模型一次多看几个字、多吐几个词?
2. 核心架构:高效的“感知-解码”双奏
GLM-OCR 延续了 GLM 系列的 Vision-Language 范式,主要由三部分组成:
- 视觉编码器 (CogViT, 0.4B):提取文档的高维空间特征。
- 多模态连接器 (Connector):将视觉信号对齐到语言空间。
- 语言解码器 (GLM, 0.5B):负责将特征转化为 Markdown、JSON 等结构化文本。
图 1:GLM-OCR 的整体工作流,包含布局分析、区域裁剪及并行识别过程
核心创新:Multi-Token Prediction (MTP)
为了打破单 Token 解码的性能瓶颈,作者引入了 MTP 机制。
- Why? OCR 任务中,如 Markdown 的表格符号
|、表格后的数字等具有极强的局部依赖性。 - How? 在主预测头之外,增加 个共享参数的辅助头。训练时预测未来 个偏移量的 Token,推理时实现一次推断生成多个 Token。
- 效果:推理吞吐量提升 ~50%,同时 MTP 强迫模型进行“超前规划”,减少了结构性标签(如 HTML 标签不闭合)的报错。
3. 训练秘籍:从对齐到强化学习
GLM-OCR 的进化经历了四个阶段:
- Stage 1 & 2:百亿级图文对预训练,完成视觉到语言的基础对齐。
- Stage 3 (SFT):在高质量 OCR 数据集(公式、表格、KIE)上进行超精细微调。
- Stage 4 (RL):引入 GRPO (Group Relative Policy Optimization)。针对表格、公式等任务设计专门的 Reward 函数,例如:
- 表格:验证 HTML 标签是否正确闭合。
- 公式:验证 LaTeX 语法是否合法。
- KIE:验证 JSON 格式的解析正确率。
4. 实验战绩:跨级别的统治力
在学术界最权威的 OmniDocBench v1.5 榜单上,GLM-OCR 展示了惊人的实力。
表 1:GLM-OCR 与各大模型在 OmniDocBench 上的细分对比
深度分析:
- 表格解析 (Table TEDS):GLM-OCR 在表格结构还原上的表现(93.96)甚至超过了专业的闭源模型,这得益于其并行区域处理和 MTP 对长结构化序列的建模能力。
- 边缘场景 (Real-world Scenarios):在印章识别(Seal Recognition)上,GLM-OCR 跑出了 90.5 的高分,领先同量级开源模型(dots.ocr, 63.0)达 40% 以上。
5. 局限性与洞察
尽管 GLM-OCR 表现出色,但仍存在一定的局限:
- 两阶段依赖:极其依赖第一阶段 PP-DocLayout 的准确性,若布局检测出错,后续识别会产生级联错误。
- 极端样本:在超低分辨率或极罕见语言上的鲁棒性仍有提升空间。
总结 (Takeaway): GLM-OCR 的成功证明了:在垂直领域,模型的大小并不是性能的唯一决定因素。通过模块化的流水线设计(Layout + Recognition)和针对任务特性优化的解码策略(MTP),0.9B 的小模型完全可以实现在工业级场景对百亿、千亿级通用大模型的“降维打击”。
注:GLM-OCR 已全面开源。代码:github.com/zai-org/GLM-OCR;模型:huggingface.co/zai-org/GLM-OCR
