ProcureGym: A Multi-Agent Markov Game Framework for Modeling National Volume-based Drug Procurement

WisPaper

Scholar Search

Scholar QA

AI Feeds

Pricing

TrueCite

Workspace

Home

Blog

ProcureGym: A Multi-Agent Markov Game Framework for Modeling National Volume-based Drug Procurement

[ProcureGym] 医药行业“数字孪生”：用多智能体博弈重构药品集采策略

Summary

Problem

Method

Results

Takeaways

Abstract

本文推出了 ProcureGym，这是一个基于马尔可夫博弈（Markov Game）的多智能体数据驱动模拟平台，专门用于建模中国国家组织药品集中采购（NVBP）。该平台利用 7 轮真实的 NVBP 数据（涵盖 325 种药物和 2,267 家企业），提供了一个高保真的模拟环境，支持强化学习（RL）、大语言模型（LLM）及规则算法的评估。

TL;DR

本文介绍了 ProcureGym，首个针对中国国家组织药品集中采购（NVBP）定制的多智能体马尔可夫博弈模拟平台。通过集成 7 轮真实集采数据，该平台不仅能高精度预测企业的中标行为（准确率达 74.81%），还通过 LLM 和 RL 的对比实验，揭示了药企在复杂监管下的报价逻辑。

痛点深挖：为什么集采博弈难以模拟？

自 2018 年启动以来，中国药品集采（NVBP）显著降低了药价，但也让决策环境变得极其复杂。药企作为理性的“自私代理人”，需要在信息不完全的条件下平衡市场份额风险与其生产成本极限。

现有的建模方法存在明显局限：

博弈论分析：往往依赖于过度简化的均衡假设，无法处理成百上千家企业的异质性。
传统代理模型 (ABM)：行为规则僵化，无法模拟企业在面对政策变动时的策略演进（即卢卡斯批判）。
通用经济模拟器：如 AI Economist 侧重税收政策，缺乏对药品集采中“量价挂钩”、“价格联动”等微观规则的精细建模。

方法论详解：马尔可夫博弈下的集采建模

作者将集采过程抽象为一个 10 维向量组成的马尔可夫博弈，这不仅包括政策参数（最高限价 $P_{max}$、约定采购比例 $\rho$ 等），还通过真实数据分布采样了企业的生产成本 $C_i$。

ProcureGym 架构概览

核心机制：

状态空间 (State Space)：捕捉了包括企业规模、原研与否、原料药自给率等微观属性。
动作空间 (Action Space)：智能体决定报价 $P_t$，其范围被严格约束在 $[C_i, P_{max}]$ 之间。
奖励函数 (Reward Function)：直接定义为瞬时利润，倒逼智能体在“降价保中标”和“高价保利润”之间寻找最优平衡点。

实验与结果：RL 的强势与 LLM 的直觉

研究对比了 IPPO/MAPPO（强化学习）、Qwen（大模型）及基于规则（Rule-based）的三类智能体。

集采模拟评估结果

性能领先：强化学习（RL）不仅在报价预测的 Spearman 相关性上表现最优，其获胜者预测准确率也远超其他基线。这表明 RL 能够通过反复迭代捕捉到集采中非线性的竞争压力。
逻辑增强：虽然 LLM 在数值精准度上略逊于 RL，但其展现了强大的战略解释性。LLM 智能体能以自然语言解释其调价逻辑（如：“由于成本处于中等水平，策略性上调报价以恢复财务可行性”），实现了决策过程的可解释。

深度洞察：政策变动的敏感性分析

通过在 ProcureGym 中进行抗压测试，作者发现：

最高有效申报价 ($P_{max}$) 是影响报价最敏感的政策杠杆，直接决定了行业的盈利基调。
市场总需求量 ($Q_e$) 对利润的贡献远大于采购成本的节约。
低成本企业倾向于激进报价以锁定市场份额（报价常低于 $P_{max}$ 的 30%），而高成本企业则在中标边缘反复横跳以寻求利润空间。

总结与局限

ProcureGym 成功地将 AI 技术引入到了极具挑战性的公共卫生经济领域。尽管目前模型主要侧重于企业端的报价行为，尚未完整结合政府和医疗机构的复杂反馈闭环，但它为后续的反事实政策推理（即：如果规则变了，药价会怎么走？）提供了极其坚实的实验平台。

对于医药企业，这是一个优化的“报价教练”；对于政策制定者，这则是评估政策波纹效应的“显微镜”。

Find Similar Papers

Try Our Examples

查找最近其他利用多智能体强化学习 (MARL) 模拟特定领域政府集中采购或招投标博弈的学术论文。
哪篇论文最早提出了 AI Economist 框架，本文在处理微观经济主体属性（如企业规模与成本结构）上对其做了哪些改进？
查看目前有哪些研究将 Qwen 或 GPT 等大语言模型作为经济智能体，并评估其在处理带有数学约束（如价格上限和产量限制）任务时的表现。

Contents

[ProcureGym] 医药行业“数字孪生”：用多智能体博弈重构药品集采策略

1. TL;DR

2. 痛点深挖：为什么集采博弈难以模拟？

3. 方法论详解：马尔可夫博弈下的集采建模

3.1. 核心机制：

4. 实验与结果：RL 的强势与 LLM 的直觉

5. 深度洞察：政策变动的敏感性分析

6. 总结与局限