Interactive Benchmarks

WisPaper

学术搜索

学术问答

论文订阅

价格

TrueCite

工作空间

Home

Blog

Interactive Benchmarks

[2026 趋势] Interactive Benchmarks：别只让 AI 做题，要看它会不会“提问”

总结

问题

方法

结果

要点

摘要

本文提出了 Interactive Benchmarks，一个旨在评估大语言模型（LLM）在有预算限制的交互过程中获取信息与推理能力的统一框架。该框架涵盖了寻找客观真理的“交互式证明”（Interactive Proofs）和追求长期效用最大化的“交互式游戏”（Interactive Games）两大场景，并以此对当前 SOTA 模型进行了深度测评。

TL;DR

普林斯顿大学与 InteractiveBench 团队近期发布了 Interactive Benchmarks，这是一款突破传统“静态问答”模式的评测框架。它认为真正的智能不仅在于推导答案，更在于当信息缺失时，如何通过主动交互与策略性提问来扩充认知边界。该框架通过逻辑解谜、数学证明、德州扑克及信任博弈四大任务，重新定义了衡量 LLM 智力的新标尺。

背景定位：静态评测的“死胡同”

在 AI 圈，GSM8K 和 MMLU 等基准测试正逐渐失效。原因有三：

数据污染：题目早就在模型训练集里跑过无数次了。
被动推理：模型只是根据给定输入进行下一步预测，这和现实世界中需求模糊、信息破碎的场景完全脱节。
主观性：类似 Chatbot Arena 的真人投票容易受到语言风格的影响，而非纯粹的逻辑实力。

作者提出的 Interactive Benchmarks 将模型置身于一个动态的、受预算限制的（Budget-constrained）环境中。

核心机制：证明 vs 博弈

框架将交互任务精准地划分为两个维度（见下图）：

模型架构图

1. 交互式证明 (Interactive Proofs)：逻辑与真理的收敛

在逻辑谜题（海龟汤）或数学挑战中，模型扮演 Player，面对一个拥有完整答案但守口如瓶的 Judge。

规则：Player 只能通过 Yes/No 类的提问来试探真相。
挑战：这要求模型具备强大的 溯因推理（Abductive Reasoning） 能力。它必须先在大脑中构建可能的候选假设，然后设计最优问题来“折半”搜索空间。

2. 交互式游戏 (Interactive Games)：效用与策略的较量

在德州扑克（Texas Hold'em）这类不完全信息博弈中，模型没有 Judge 指引。

挑战：模型需要处理随机性（Stochasticity）和对抗性（Adversarial behavior），实时更新对对手心理（Theory of Mind）的估计，并管理自己的风险回报比。

实验洞察：谁才是真正的“聪明人”？

数学：交互比盲目采样更高效

研究发现，与其让模型独立运行 $k$ 次（Pass@k），不如给它一次交互的机会。实验结果显示，在相同的 Token 预算下，允许模型询问中间步骤的正确性，其表现提升了 20%-50%。这证明了 LLM 具备利用反馈进行自我修正的潜力。

数学实验对比图

德州扑克：Gemini 与 Grok 的对决

在 5000 手德州扑克模拟赛中：

Gemini-3-flash 脱颖而出，获得了最高且最稳定的盈利。
GPT-5-mini 表现得最为激进（VPIP 最高，Fold 率最低），展现出一种“高风险、高激进”的人格特征。
DeepSeek-v3.2 则非常紧缩（Tight），入池率极低。

扑克实验结果

深度总结：交互是 AGI 的分水岭

这篇论文的真正价值在于指出了 LLM 目前的一个软肋：它们在已知条件的逻辑链条上很强，但在如何“构造问题”以消除不确定性方面仍显稚嫩。

局限性：目前的评测仍高度依赖于 Judge 模型（如 Grok-4.1-fast）的公允性，且交互深度仍限制在 20 轮左右。
启示：未来的模型训练（如使用 RLHF 或 RLAIF）可能不再仅仅追求回答正确，而应该包含对“提问效率”和“信息搜索策略”的优化。

正如 Sutton 所言：“从交互中学习是几乎所有学习与智能理论的核心。” 只有真正学会在未知中提问的模型，才能在自动驾驶、科研助理等现实复杂任务中生存。

发现相似论文

试试这些示例

查找最近其他将“主动学习”或“提问策略”引入大语言模型推理评估的新型基准测试论文。
交互式证明系统（Interactive Proof Systems）在计算复杂度理论中的原始定义是如何被转化为 LLM 评测协议的？
有哪些研究探讨了在大语言模型训练阶段通过强化学习（RL）来优化其在策略博弈（如扑克、外交博弈）中的表现？

[2026 趋势] Interactive Benchmarks：别只让 AI 做题，要看它会不会“提问”

1. TL;DR

2. 背景定位：静态评测的“死胡同”

3. 核心机制：证明 vs 博弈

3.1. 1. 交互式证明 (Interactive Proofs)：逻辑与真理的收敛

3.2. 2. 交互式游戏 (Interactive Games)：效用与策略的较量

4. 实验洞察：谁才是真正的“聪明人”？

4.1. 数学：交互比盲目采样更高效

4.2. 德州扑克：Gemini 与 Grok 的对决

5. 深度总结：交互是 AGI 的分水岭