FinTradeBench: A Financial Reasoning Benchmark for LLMs

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

FinTradeBench: A Financial Reasoning Benchmark for LLMs

[ICLR 2025] FinTradeBench：当基本面遭遇行情信号，大模型还能维持理性吗？

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 FinTradeBench，这是一个专门用于评估大语言模型（LLMs）在金融推理能力的基准测试集。它首次将公司基本面（Fundamentals）与市场交易信号（Trading Signals）深度集成，涵盖了纳斯达克100指数公司十年间的1,400个真实历史问题，是目前最贴近真实投资决策场景的测试集。

TL;DR

在金融投资领域，优秀的分析师不仅要看财报（Fundamentals），还要看盘面（Trading Signals）。然而，目前的 AI 测评集大多只考查前者。UCF 团队提出的 FinTradeBench 填补了这一空白。研究发现：强如 DeepSeek-R1，在面对“财报利好但股价阴跌”的冲突场景时，虽然比普通模型更强，但仍会被过多的检索信息“带偏”。

1. 痛点：被“阉割”的金融推理

目前的金融大模型评估存在一个巨大的误区：认为只要能看懂 SEC（美国证券交易委员会）的财报，AI 就能做投资。实际上，真实的交易世界是高度异构的：

基本面（Fundamentals）：基于会计准则，反应的是公司的“体质”，例如 ROA, Debt/Equity。
交易信号（Trading Signals）：基于市场博弈，反应的是“情绪”和“趋势”，例如 RSI, MACD, 波动率。

作者通过 NVIDIA 的案例（下表）展示了现状：当被问及“2025年7月的股价回调是否是买入机会”时，绝大多数 LLM 根本无法正确识别当时的 RSI 或动量指标，甚至会产生时间线上的幻觉。

NVIDIA 案例对比

2. 核心架构：校准-规模化（Calibration-then-Scaling）

构建一个高质量的金融推理基准极其昂贵，因为需要昂贵的金融专家审核。作者提出了一套自动化的流水线：

专家建模：专家编写 150 个种子问题，并标注“黄金指标（Golden Indicators）”。
双轨检索（Dual-Track RAG）：
- Track A：针对 SEC 文本，使用父子映射（Parent-Child Chunking）保留长上下文。
- Track B：针对行情数据，将数值序列转化为结构化表格。
多模型校准：使用 Claude-4.5 作为“裁判”，通过与人类专家的评分对齐（MAE < 10%），实现大规模自动化扩展。

模型架构图

3. 实验洞察：RAG 是一把“双刃剑”

通过对 DeepSeek、Llama 3.3、Gemini 等 14 个模型的测评，文章得出了几个令人惊讶的结论：

结论一：RAG 偏科严重

基本面推理（F-type）：RAG 带来了巨大的提升。R1-Distill-Qwen 获益最高（+37%），因为模型在预训练阶段就见过大量 SEC 文本，检索起到了“锚定”作用。
交易信号（T-type）：RAG 竟然起到了反作用！多个模型的表现下降了近 20%。 深度洞察：模型并不擅长直接解析检索到的原始行情表格（Raw Numerical Tables）。这种数据对模型来说像“乱码”，注入上下文窗口反而会产生干扰（Distraction）。

结论二：推理模型（Reasoning LLMs）的统治力

在最难的**混合推理（FT-type）**中，具备 Latent CoT 能力的模型（如 DeepSeek-R1 原型及其蒸馏版）展现了碾压优势。它们能够分配额外的计算量来权衡“财报利好”与“技术面走低”之间的冲突。

实验结果对比汇总

4. 深度洞察：理想与现实的鸿沟（Ideal RAG）

作者做了一个有趣的消融实验：如果我不给模型原始数据，而是给它预计算好的“理想 context”（比如直接告诉它 RSI 是 60.39，而不是让它在一堆价格里算），模型表现瞬间爆表。结论：当前金融 AI 的瓶颈不在于理解力，而在于预处理能力。直接把 RAG 扔给原始行情序列是在浪费显存。

5. 总结与反思

FinTradeBench 揭示了金融 AI 进入实战的最后几公里障碍：

从检索转为计算：单纯靠向量检索文本无法解决数值推理，需要集成 Code Interpreter。
降低干扰：Llama 3.3（70B）在多信号场景下极易被长文本噪声分散注意力，如何提升模型在冗长金融文档中的“抗干扰”能力是关键。

这篇论文为未来的金融智能体（Financial Agents）指明了道路：不仅仅是读文档的学者，更应该是懂计算、能调和多方证据的决策者。

Find Similar Papers

Try Our Examples

查找最近其他试图解决金融大模型在处理股价时间序列（Time-series）数据时推理失效问题的论文。
哪篇论文最早提出了 TELeR 提示词分类法（Taxonomy of LLM Prompts），本文如何利用该分类法评估金融推理的复杂性？
有哪些最新的研究正在探索“代理型检索增强生成”（Agentic RAG）在金融投资决策支持系统中的应用？

Contents

[ICLR 2025] FinTradeBench：当基本面遭遇行情信号，大模型还能维持理性吗？

1. TL;DR

2. 1. 痛点：被“阉割”的金融推理

3. 2. 核心架构：校准-规模化（Calibration-then-Scaling）

4. 3. 实验洞察：RAG 是一把“双刃剑”

4.1. 结论一：RAG 偏科严重

4.2. 结论二：推理模型（Reasoning LLMs）的统治力

5. 4. 深度洞察：理想与现实的鸿沟（Ideal RAG）

6. 5. 总结与反思