EXAONE 4.5 Technical Report

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

EXAONE 4.5 Technical Report

[LG AI Research] EXAONE 4.5：首款 33B 开源视觉语言大模型，深度赋能工业级文档理解

总结

问题

方法

结果

要点

摘要

EXAONE 4.5 是由 LG AI Research 推出的首款开源权重视觉语言模型（VLM）。该模型基于 EXAONE 4.0 架构，集成了一个 1.2B 参数的视觉编码器，支持 256K 超长上下文及 6 种语言，在文档理解和多模态逻辑推理方面达到了 SOTA 水平。

1. 核心速览 (Executive Summary)

TL;DR：LG AI Research 正式发布 EXAONE 4.5，这是其首个开源权重的视觉语言模型（VLM）。它将 32B 的语言基座与自研的 1.2B 视觉编码器深度融合，支持 256K 超长上下文。在多模态数学推理、工业文档解析以及韩语语义理解等方面，EXAONE 4.5 表现出了惊人的竞争力，甚至在多个指标上超越了参数量大得多的 Qwen3-VL-235B。

背景定位：该模型不仅是 LG 在多模态领域的 SOTA 之作，更是其迈向 视觉-语言-动作 (VLA) 具身智能战略的关键一步，旨在解决制造业质量控制、工程图纸解析等真实工业场景痛点。

2. 痛点与动机 (Problem & Motivation)

在工业环境中，AI 面临的挑战远比通用对话复杂。现有的 VLM 模型在处理高分辨率的工程布线图、复杂的数学公式和长篇技术手册时经常“失焦”：

信息流失：为了节省计算资源，前人工作常采用压缩视觉 Token 的方法，但这会丢失识别微小零件缺陷所需的空间细节。
推理断层：许多模型能“看到”文字，但无法理解图表中的逻辑关系。
长文本瓶颈：传统的上下文扩展通常在 SFT 之后进行，容易破坏跨模态的对齐稳定性。

LG 的研究直觉是：不能为了效率牺牲视觉特征的丰富度。与其用小编码器接大模型，不如训练一个“重型”的视觉编码器，并配合更高效的注意力机制（GQA）来换取精度与速度的平衡。

3. 方法论详解 (Methodology)

架构革新：1.2B 专用视觉编码器

EXAONE 4.5 并没有直接借用现成的 CLIP 方案，而是从零训练了一个 1.2B 参数的视觉编码器。

GQA (Grouped Query Attention)：首次将大语言模型中常见的 GQA 引入视觉编码器，显著降低了视觉 Token 处理时的计算复杂度，提升了硬件利用率。
2D RoPE：由于图像是二维空间结构，模型采用了 2D 旋转位置编码，确保模型能精准捕捉图像块之间的空间拓扑关系。
MTP (Multi-Token Prediction)：通过多 Token 预测技术，进一步提升了推理过程中的解码吞吐量。

模型架构图

两阶段预训练策略

基础对齐阶段：使用大规模图文对、OCR 数据和交织文档进行初步对齐。
感知精炼阶段：上采样高质量的 STEM（科学、技术、工程、数学）数据和长链条思维（CoT）数据，强化模型的逻辑推理“内功”。

4. 实验与结果 (Experiments & Results)

在 33B 这个参数量级上，EXAONE 4.5 的表现堪称“降维打击”：

数学与逻辑：在 MATH-VISION 测试中拿到 75.2 分（Qwen3-VL-235B 为 74.6），在 MMMU-PRO 上也超越了 GPT-5 mini。
文档理解：针对工业文档设计的 CharXiv 和 OmniDocBench 表现稳健，充分体现了其在处理表格、复杂排版上的优势。
编程能力：在 LiveCodeBench v6 中以 81.4 的高分位居开源模型前列。

实验结果对比

5. 深度洞察与总结 (Critical Analysis & Conclusion)

价值总结 (Takeaway)

EXAONE 4.5 的成功经验在于其数据策展的精准性。LG 重点针对工业场景（OCR、图表、多步推理）进行数据灌浆，这比单纯追求模型参数的堆叠更具商业实用价值。其开源策略（Hugging Face 与 GitHub 同时公布）也将极大推动工业级视觉助手领域的发展。

局限性与展望

尽管在逻辑推理上表现优异，但技术报告也坦诚：模型在某些情况下仍会出现幻觉，且对最新实时信息的掌握有限。未来，LG 计划将此模型作为基础，开发能够执行具体物理动作的 VLA (Vision-Language-Action) 模型，真正让 AI 走出实验室，走入工厂车间。

本文由资深学术主编重构。EXAONE 4.5 现已在 Hugging Face 开源，感兴趣的开发者可以前往体验：LGAI-EXAONE/EXAONE-4.5-33B

发现相似论文

试试这些示例

查找最近其他在视觉编码器中应用 Grouped Query Attention (GQA) 以优化多模态推理效率的论文。
哪篇论文最早提出了 Multi-Token Prediction (MTP) 机制，本文提及的 K-EXAONE 是如何通过该机制提升解码吞吐量的？
调研针对长文本视觉语言模型（Long-context VLM）在工业自动化和视觉代理（Vision-Language-Action）领域的最新应用案例。

[LG AI Research] EXAONE 4.5：首款 33B 开源视觉语言大模型，深度赋能工业级文档理解

1. 1. 核心速览 (Executive Summary)

2. 2. 痛点与动机 (Problem & Motivation)

3. 3. 方法论详解 (Methodology)

3.1. 架构革新：1.2B 专用视觉编码器

3.2. 两阶段预训练策略

4. 4. 实验与结果 (Experiments & Results)

5. 5. 深度洞察与总结 (Critical Analysis & Conclusion)

5.1. 价值总结 (Takeaway)

5.2. 局限性与展望