Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

[ArXiv 2025] 读不动还是想不通？深挖多模态 LLM 的“像素文本”之困

Summary

Problem

Method

Results

Takeaways

Abstract

本文系统性地诊断了多模态大语言模型（MLLMs）在处理“像素化文本”时的“模态鸿沟（Modality Gap）”，涵盖 7 种模型与 7 类基准测试。研究提出了基于自我蒸馏（Self-Distillation）的弥合方法，成功将 GSM8K 图像模式下的准确率从 30.71% 提升至 92.72%，接近纯文本性能。

TL;DR

当我们将一段文字从文本 Token 变成一张图片交给多模态大模型（MLLM）时，它的表现往往会大幅跳水。这篇来自约翰霍普金斯与亚马逊等机构的研究精准指出：模型不是变笨了，而是“看不清”且“拒绝思考”。通过一种巧妙的**自我蒸馏（Self-Distillation）**技术，研究者成功让模型在只看图片的情况下，也表现出了几乎等同于文本输入时的逻辑推理水平。

现象演示

1. 模态鸿沟：它真的存在吗？

过去我们一直认为 MLLM 在处理图像里的文字（Visual Text）时存在严重的性能损失，这种现象被称为**“模态鸿沟（Modality Gap）”**。

但本文作者通过详尽的实验发现，这个鸿沟具有欺骗性：

合成渲染（Synthetic） vs 真实文档（Natural）：在 GSM8K 这种数学题上，若用纯黑白合成图渲染，模型性能会暴跌 60% 后；但在真实的 arXiv PDF 或维基百科截图中，性能甚至可能超过纯文本模式。
渲染选项的干扰：仅仅更换一种手写字体，准确率就能波动 47 个百分点。这意味着此前的很多评估实际上混淆了“视觉认知”和“渲染伪影”。

2. 核心诊断：Image Mode Impairs Reading, Not Thinking

为了搞清楚模型到底错在哪，作者对 4,000 多个错误样本进行了**扎根理论（Grounded Theory）**分析。这是本文最精彩的部分，它将错误归类并对比了文本与图像模式的分布：

阅读障碍：计算错误（由数字识别错误引起）和格式错误在图像模式下增加了 1.5 倍。
认知不变：模型在概念理解、知识检索和纯逻辑推导上的错误率，在两种模式下几乎完全一致。
CoT 崩塌：这是一个有趣的发现。在图像模式下，模型倾向于“走捷径”，输出长度大幅缩短（例如 Qwen3-VL-8B 缩短了 19 倍），直接跳过推理过程给出一个错误的答案。

结论：模态鸿沟的本质是“阅读（感知）”受阻导致“思考（推理）”被抑制。

3. 破局之道：自我蒸馏技术

既然模型本身“懂”怎么推理，只是看到图片就“不想推”，那能不能用它自己的文本能力来教它的视觉能力？

自我蒸馏流程：

生成教师信号：让模型在 Pure Text 模式下运行，生成高质量的思维链（CoT）推理轨迹。
训练学生路径：将相同的题目渲染成图片，输入同一模型，并以之前生成的文本 CoT 轨迹为训练目标（Supervised Fine-Tuning）。
协同优化：作者尝试了不同的 LoRA 策略，发现即便只更新语言模型（LM-only）部分，效果也极其显著。

训练架构 (注：此处对应原文 Section 6 的实验设计，展示了模型如何通过自身的文本信号来校准其视觉输入下的响应)

4. 关键结果对比

实验结果令人振奋：

GSM8K 重回巅峰：图像模式下的准确率从惨不忍睹的 30.71% 直接飚升至 92.72%。
泛化能力强：在 GSM8K 上完成蒸馏的模型，在 MMLU 和 HumanEval 上的表现也得到了同步提升，证明模型学习到的是通用的“视觉-文本对齐”能力。

实验数据对比表

总结与启示

这项工作给了我们一个非常乐观的信号：多模态模型并不需要从头开始学习如何“阅读并思考”。它们已经具备了大脑（LLM 推理内核），只是视觉转换层（Vision Encoder 到 LLM 的对齐）还不够顺滑。

对于开发者而言，这提供了一个实用的方案：如果你想让你的多模态模型更好地处理专业文档或代码截图，不需要迷信更强或更大的模型，通过针对性的跨模态轨迹对齐，就能挖掘出模型已有的潜力。

局限性：尽管窄化了鸿沟，但高质量渲染带来的计算开销（FLOPs 往往比文本高出数倍）依然是视觉文本处理走向大规模应用的技术阻碍。未来的工作可能会更多关注于如何实现更高效的“视觉压缩”。

Find Similar Papers

Try Our Examples

查找最近其他关于多模态模型中“模态鸿沟”成因分析及量化评估的最新论文。
哪篇论文最早讨论了大模型在视觉输入下的思维链（CoT）崩塌现象，本文的方法与其有何异同？
有哪些研究探讨了将 PDF 渲染文本作为 MLLMs 预训练数据对模型长文档理解能力的具体贡献？

Contents

[ArXiv 2025] 读不动还是想不通？深挖多模态 LLM 的“像素文本”之困

1. TL;DR

2. 1. 模态鸿沟：它真的存在吗？

3. 2. 核心诊断：Image Mode Impairs Reading, Not Thinking

4. 3. 破局之道：自我蒸馏技术

4.1. 自我蒸馏流程：

5. 4. 关键结果对比

6. 总结与启示