本文推出了 PokéAgent Challenge,这是一个基于宝可梦(Pokémon)对战系统和 RPG 环境的大规模决策制定基准测试。它包含两个赛道:侧重不完全信息博弈的 Battling Track 和侧重超长时序规划的 Speedrunning Track,旨在评估 AI 在复杂、多变环境下的通用与专业化能力。
TL;DR
本文介绍了由普林斯顿、UT-Austin 等顶尖机构联合发布的 PokéAgent Challenge。这不仅是一个情怀项目,更是一个严谨的 AI 基准测试,涵盖了从**博弈论对战(Battling)到长程 RPG 流程(Speedrunning)**的双重挑战。研究发现,虽然 GPT-5 和 Claude 4.5 已经能在一定程度上玩转游戏,但在专业 RL 面前仍显稚嫩,且暴露了模型在压力下的“脑抽”(恐慌行为)等深层逻辑问题。
1. 为什么是宝可梦?不仅仅是童年回忆
在 AI 领域,围棋和扑克已基本被攻克。然而,宝可梦代表了一种更真实、更混乱的挑战:
- 极高的状态空间:Gen 9 对战的状态空间高达 ,远超围棋()。
- 不完全信息:你不知道对手的具体配置、道具或努力值(EVs),必须通过博弈不断推断。
- 长程决策链:通关一个 RPG 需要数万步的操作一致性,任何一个环节的迷路都可能导致死循环。
2. 核心挑战:两个截然不同的战场
Battling Track(对战赛道)
这个赛道测试的是 AI 的战略深度。它基于经典的 Pokémon Showdown 模拟器。
- 痛点:人类玩家的对战数据是 spectator(观察者)视角,缺失了私有信息。
- 突破:作者重构了 400 万条人类轨迹和 1800 万条合成轨迹,允许进行大规模的 Offline RL 训练。
图 1:宝可梦与传统游戏基准在状态空间和可观测性上的对比
Speedrunning Track(速通赛道)
这个赛道挑战的是 AI 的续航力与感知力。
- Harness vs Model:作者指出,直接丢一个 VLM(多模态模型)去玩游戏基本会原地转圈。必须有一套名为 Harness 的外骨骼系统,负责感知转化、内存管理和 A* 路径规划。
3. 技术核心:多智能体编排与脚本蒸馏
在 Speedrunning 赛道中,冠军团队 Heatz 采用了一种极其精妙的方法:Scripted Policy Distillation (SPD)。
- LLM 生成脚本:让 LLM 先写代码(脚本)来完成子目标。
- 代码执行:脚本通过调用 A* 和 VLM 接口去执行。
- RL 蒸馏:将成功的脚本运行轨迹通过离线强化学习蒸馏到神经网络中,解决 LLM 推理慢、成本高的问题。
图 2:不同架构在 Speedrunning 赛道中的步数与时间效率对比,Deepest 团队在步数效率上表现最佳。
4. 深度洞察:LLM 的“恐慌”与“短板”
通过 PokéAgent 的大规模测试,作者得出了几个令人深思的结论:
- 性能正交性:在传统的编程、数学榜单(如 BenchPress)上得高分的模型,在宝可梦对战中可能表现极差。这说明对抗性战略思维是当前 LLM 评估的盲点。
- 恐慌行为 (Panic Behavior):当 AI 犯下一个微小的战术错误后,往往会产生连锁反应,进入一种“递归验证”的逻辑死循环(Computational Paralysis),最终导致全盘崩溃。
- RL 依然是王者:在需要精确计算和对手建模的对抗任务中,专门的 RL(如集成 MCTS 的 FoulPlay)依然大幅领先于强力内推的 LLM(如 GPT-5.2)。
5. 总结与未来:迈向主动式智能体
这项研究不仅为游戏 AI 设立了标杆,更为具身智能 (Embodied AI) 提供了宝贵经验。
- VLM-SLAM:目前的 AI 依然在基本定位和空间测距上挣扎,如何通过视觉语言接口建立稳定的空间表征(类似传统 SLAM)是下一个突破口。
- 混合动力:未来的趋势将是:LLM 提供先验常识与高层规划,RL 负责底层优化与执行效率。
宝可梦世界不再只是娱乐,它正成为通往 AGI 道路上一块极为硬核的试金石。
本文基于论文 "The PokeAgent Challenge: Competitive and Long-Context Learning at Scale" 撰写。详情请访问 pokeagentchallenge.com
