WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
TRICE:教思维模型学会“工欲善其事,必先利其器”
总结
问题
方法
结果
要点
摘要

本文提出了 TRICE,一种针对强思维模型(Thinking Models)的全流程工具集成推理(Tool-Integrated Reasoning, TIR)训练方案。通过在 SFT 和 RL 阶段引入精心设计的轨迹数据与稳定性策略,TRICE-30B 在 AIME 2025 基准测试中达到了 SOTA 的 99.2% 准确率。

TL;DR

在学术界追求 Long-CoT(长思维链)提升逻辑极限的同时,来自上海 AI Lab、浙大及清华的研究团队提出了 TRICE 方案。他们发现即使是最强的思维模型,在面对复杂数学竞赛题时也会因“盲目自信”而拒绝使用计算工具。TRICE 通过一套从数据工程到强化学习的全流程配方,让模型学会在推理中无缝交织代码执行。其最终版模型在 AIME 2025 上斩获 99.2% 的恐怖高分,刷新了开源模型的 SOTA 纪录。

1. 痛点:思维模型的“工具僵局”

当前的思维模型虽然在纯文本逻辑上表现强劲,但在面对需要精确数值计算或系统性遍历的情景时,依然显得力不从心。

  • 现象一:Delayed-code Pattern。模型往往在洋洋洒洒推理几万字后,最后一步才调用工具验证答案,这种“马后炮”行为无法利用工具修正中间过程的错误。
  • 现象二:性能崩塌。一旦在 Prompt 中加入工具权限,思维模型的原生逻辑链往往会被干扰,导致准确率反而下降。

2. 核心配方:从数据驱动到阶段协调

作者认为,教模型使用工具不是简单的微调,而是一场精密的外科手术。

A. 数据工程:学其“形”更要学其“神”

  • 教师模型选择:作者对比了 GPT-OSS 和 MiniMax,发现学生模型更容易学习“高频、轻量级”的调用风格(如 GPT-OSS)。这种风格将复杂计算拆解为简单步骤,通过 Stateful Sandbox(有状态沙箱)复用变量,更符合人类边算边想的过程。
  • 工具优势筛选 (Tool-advantaged Problems):并非所有问题都适合调包。作者只保留那些“有了工具后准确率大幅提升”的问题作为训练集,引导模型识别工具的真正价值。
  • 混合训练:为了防止模型在没法上网/调包时变“白痴”,训练集中强制保留了比例可观的纯文本推理轨迹。

B. SFT 动力学解析:避开“伪拟合”陷阱

作者揭示了 TIR 训练的三个阶段:

  1. Form (形式阶段):模型拼命调用工具,但逻辑混乱,长度暴涨,准确率反而跌。
  2. Substance (本质阶段):模型开始领悟工具与逻辑的交替。
  3. Noise (噪声阶段):过度拟合教师的冗余信息,RL 潜力降低。

SFT 训练动态图 通过监控 pass@k 和响应长度,作者精确定位了第 2 阶段的实验点作为 RL 的初始 Checkpoint。

3. 强化学习:全上策略(On-policy)的救赎

在 RL 阶段,由于工具返回的 Observation(如报错信息、绘图数据)具有高度的不确定性和“离策略”属性,传统的 RL 非常容易训练崩塌(Collapse)。 TRICE 采用了:

  • Outcome-based Reward:不给工具调用本身发奖励(防止奖励黑客行为),只根据最终答案对错给分。
  • On-policy Rollout:抛弃分批次更新,采用完全的上策略训练,极大地提升了稳定性。

4. 实验战果:降维打击

TRICE-30B 在多个硬核数学榜单上展现了统治力:

  • 性能飞跃:在 APEX 2025(国际奥数难度)上,相比基座模型实现了从 0 到 16.7% 的突破。
  • 更短、更强:由于工具压缩了复杂的算术推导,TRICE 的响应长度比纯文本模型更短,显著节省了推理开销。

实验结果对比

5. 深度洞察:工具到底解锁了什么?

作者通过 Gemini 对解决路径进行了分类,发现代码执行器在模型手中已经变成了:

  1. 经验发现:先算几个小案例,推导通用公式。
  2. 算法搜索:直接暴力搜索组合空间。
  3. 计算卸载:保证高精度。 这证明了 TIR 并非简单的“外挂计算器”,而是模型认知能力的物理延伸。

总结与局限

TRICE 成功证明了:思维深度(Long-CoT)+ 工具宽度(TIR)= 未来推理模型的新标准。 目前的局限在于该方案高度依赖数学这一可验证领域。未来如何将这套配方迁移到软件工程、科学探索等开放领域,将是 Agent 技术演进的关键路径。

发现相似论文

试试这些示例

  • 查找其他关于思维模型在强化学习阶段如何平衡长文本思维链(Long-CoT)与工具调用频率的研究论文。
  • 哪篇论文最早探讨了 LLM 在 SFT 阶段的“形式-本质-噪声(Form-Substance-Noise)”演化规律,本文的 checkpoint 选择策略如何深化了这一理论?
  • 有哪些研究将类似 TRICE 的工具集成推理框架应用到了数学以外的领域,例如自动化软件工程(SWE)或交互式科学实验设计?
目录
TRICE:教思维模型学会“工欲善其事,必先利其器”
1. TL;DR
2. 1. 痛点:思维模型的“工具僵局”
3. 2. 核心配方:从数据驱动到阶段协调
3.1. A. 数据工程:学其“形”更要学其“神”
3.2. B. SFT 动力学解析:避开“伪拟合”陷阱
4. 3. 强化学习:全上策略(On-policy)的救赎
5. 4. 实验战果:降维打击
6. 5. 深度洞察:工具到底解锁了什么?
7. 总结与局限