InCoder-32B: Code Foundation Model for Industrial Scenarios

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

InCoder-32B: Code Foundation Model for Industrial Scenarios

[工业基础模型] InCoder-32B：打破通用 AI 与硬科技工程的代码断层

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 InCoder-32B，这是首个专为工业级代码智能设计的 32B 参数基础模型。它统一了芯片设计（Verilog）、GPU 算子优化（CUDA/Triton）、嵌入式系统和 3D 建模等多个高度专业的工业领域，在保持通用编程能力的同时，在多个工业基准测试中达到了开源 SOTA。

TL;DR

在 AI 辅助编程（AI Coding）领域，虽然我们已经有了 DeepSeek、Qwen 等通用代码悍将，但在面对 Verilog 芯片设计、CUDA 算子极致优化、嵌入式固件 等工业“硬核”场景时，现有的模型往往会因为不懂硬件约束、不识生僻 API 而翻车。本文介绍的 InCoder-32B 是全球首个全心全意为“工业代码”打造的 32B 基础模型，它不仅能写代码，更能通过真实的 EDA 和仿真环境进行自修复，实现了从“文本生成”到“工程验证”的跃迁。

背景定位：垂直领域代码智能的“最后公里”

工业软件开发与互联网应用开发有本质不同：

硬件语义敏感：一行 Verilog 的错位可能导致芯片流片失败。
极度稀缺的数据：相比 GitHub 上海量的 JavaScript 库，高性能 GPU 内核或特定微控制器的驱动代码在互联网上极少。
强制性的验证反馈：代码行不行，不由 LLM 说了算，得由仿真器、示波反馈或时序分析报告说了算。

核心方法论：三阶段 Code-Flow 管线

1. 数据的“深挖与重构”

为了解决工业数据稀缺问题，研究团队采取了三步走策略：首先通过扩展名和关键词进行 大规模召回；其次利用 OCR 技术从技术手册、芯片规格书、硬核教材中提取人类专家的“生产级知识”；最后进行严格的 静态分析（AST）和重编译校验，确保进入模型的每一行代码都是合法的。

2. 回路中的验证：执行驱动的微调

这是 InCoder-32B 最核心的竞争力。作者构建了四类真实的模拟环境：

芯片设计：集成 Icarus Verilog, Verilator 和 Yosys，模拟 RTL 编写、仿真到综合的全过程。
GPU 优化：在真实的 A100 节点上运行 CUDA/Triton 内核，直接测量数值准确性和运行速度。
嵌入式系统：使用 Renode 仿真 STM32F407 开发板，验证寄存器操作和中断逻辑。
3D 建模：利用 OpenCascade 内核验证 CAD 脚本生成的几何保真度。

模型架构与训练管线

3. 中期训练与推理链条

模型通过 8K -> 32K -> 128K 的渐进式长度扩展，不仅学会了看长文档，更通过合成的“推理 QA”理解了工业逻辑。例如，模型不再只是机械地预测下一个 Token，而是通过 Thought-Action-Observation 循环，学习如何看懂编译错误并进行“回炉重造”。

实验战绩：工业级 SOTA

InCoder-32B 在传统的通用榜单（HumanEval, MBPP）上依然保持着顶尖梯队水平，但其真正的光芒闪耀在工业基准测试中：

工业基准对比图

Verilog 生成：在 RealBench 任务中，InCoder-32B 的成功率（Func@1）远超其他 30B 级别的开源模型。
GPU 算子：在 KernelBench 的 L1-L3 等级任务中，其性能甚至在某些环节超越了 Claude-3.5-Sonnet，体现了对硬件底层规律的深度理解。
3D CAD：通过 CadQuery 脚本生成的 IoU（体素重合度）指标刷新了开源记录。

深度洞察：为什么 32B 够用了？

论文给出的消融实验非常有启发性。作者发现，工业场景下，数据的质量远比规模重要。通过将“代码变迁（Commit）”和“执行轨迹”引入 SFT 阶段，模型能够习得一种类似“资深工程师”的直觉——这种直觉来自于对失败案例（编译报错）的分析，而非对海量 Web 代码的堆砌。

总结与局限

InCoder-32B 填补了代码模型在硬核工程领域的空白。尽管它表现强劲，但在复杂的寄存器传输级（RTL）时序分析和极端复杂度的 SoC 设计上（如论文提到的 L5 级 OOO RISC-V）仍有待提高。

这项工作的真正价值在于：它为未来的 “Agent 驱动型工业设计” 奠定了底座。当 AI 不再只是一个聊天窗口，而是一个能操作 EDA 工具、跑仿真脚本的“虚拟工程师”，工业设计的民主化和自动化才算真正开始。

Find Similar Papers

Try Our Examples

查找最近一年内专门针对 Verilog 或硬件描述语言进行强化的开源代码大模型及其微调策略。
哪篇论文最早在 Transformer 训练中引入了“执行反馈驱动的修复”（Feedback-driven repair）机制，本文又是如何将其扩展到工业仿真环境的？
探索在大模型中实现长上下文（128K 以上）且保留对硬件时序敏感的推理能力的最新研究方法。

Contents

[工业基础模型] InCoder-32B：打破通用 AI 与硬科技工程的代码断层

1. TL;DR

2. 背景定位：垂直领域代码智能的“最后公里”

3. 核心方法论：三阶段 Code-Flow 管线

3.1. 1. 数据的“深挖与重构”

3.2. 2. 回路中的验证：执行驱动的微调

3.3. 3. 中期训练与推理链条

4. 实验战绩：工业级 SOTA

5. 深度洞察：为什么 32B 够用了？

6. 总结与局限