WisPaper
WisPaper
Scholar Search
Scholar QA
Pricing
TrueCite
[Preprint 2026] RVLM:递归视觉语言模型,开启临床诊断的可审计与自适应时代
Summary
Problem
Method
Results
Takeaways
Abstract

本文提出了 RVLM,一种基于递归 Python REPL 环境的视觉语言模型框架,旨在解决医疗 AI 的黑盒预测和固定计算开销问题。通过引入可预测任务复杂性的 RRouter 模块,该系统在 BraTS 2023 脑胶质瘤和 MIMIC-CXR 胸片任务上实现了具备可审计性和自适应深度的临床诊断。

TL;DR

在临床医疗领域,AI 的“黑盒”属性一直是阻碍其大规模应用的核心痛点。本文介绍的 RVLM (Recursive Vision-Language Model) 框架,彻底抛弃了传统的单次前向推理模式,转而采用一种“生成-执行”的递归循环。它不仅让 AI 的每一次诊断都有据可查(生成 Python 代码),还通过 RRouter 实现了动态的计算分配,让简单病例跑得快、复杂病例钻得深。

核心定位

RVLM 不是一个全新的基础大模型,而是一套方法论插件。它将现有的 VLM(如 Gemini 2.5 Flash)置于一个具备视觉能力的 REPL (Read-Eval-Print Loop) 环境中,使其从一个简单的“分类器”进化为一个具备“动手能力”的数字放射科医生。


1. 痛点:为什么单次推理不够用?

  1. 不可审计 (Lack of Auditability):放射科医生需要知道 AI 为什么判定是脑膜瘤,是基于哪个模态的什么特征?单次推理只给结果,不给过程。
  2. 效率极化 (Fixed-Budget Dilemma):医生处理一个简单的骨折和一个复杂的恶性肿瘤,花费的时间显然不同。但目前的 Agent 架构通常设定固定的 max_iterations,要么在简单任务上浪费 API Token,要么在复杂任务上草草了事。

2. Methodology:递归视觉推理与自适应深度

2.1 视觉 REPL 环境 (EV)

RVLM 的核心在于它给模型提供了一个“实验台”。模型可以编写 Python 代码来操纵图像:

  • describe_image():针对特定模态(如 T1ce 或 FLAIR)进行独立描述。
  • llm_query_with_images():进行跨模态对比,例如对比增强后的 T1 与水肿明显的 FLAIR 图像。
  • 图像处理工具箱:支持调用 PIL 或 NumPy 进行裁切(Crop)或增强(Enhance),模拟放射科医生放大局部观察的行为。

模型架构图 图 1:RVLM 系统架构,展示了 MV 控制器与 EV 环境之间的闭环交互。

2.2 RRouter:任务复杂性预测

为了实现自适应深度,作者设计了 RRouter 逻辑。它首先通过一个“预检阶段”提取病灶的 4 个物理特征:

  1. 标签熵 (H): sub-region 分布越平均,复杂度越高。
  2. 肿瘤总体积 (V):体积越大,分析步骤越多。
  3. 子区域数量 (R):判断包含环形增强、水肿等多少个组成部分。
  4. 微小区域指标 (T):是否存在难以察觉的小病灶。

通过公式计算出复杂度评分 ,并将其映射为 3 到 6 次不等的迭代预算。

3. 实验结果:不仅仅是准确率

3.1 脑膜瘤亚区表征 (BraTS 2023)

在 BraTS 任务中,RVLM 展现出了极高的跨模态验证能力。例如,它能检测出分割掩码(Segmentation Mask)与原始图像信号之间的矛盾——这是单次推理模型绝对无法察觉的逻辑缺陷。

实验结果对比 表 1:RVLM 与单次推理 VLM 在诊断功能上的对比,展示了其在增强表征和代码验证方面的优势。

3.2 成本效率

对于简单案例(BraTS-MEN-00008-000),RRouter 将迭代次数压缩至 3 次。相比固定 12 次的上限,推理成本和延迟直接下降了约 75%,这使得该架构在实际生产环境中具备了经济可行性。

4. 深度洞察:符合监管的“内生透明度”

RVLM 最具前瞻性的贡献在于它对 Trust-by-Design 的实践。它产生的不是一段“看起来像解释”的文字(幻觉重灾区),而是:

  • 程序化透明度:每一条结果都有对应的 Python 代码和执行日志。
  • 临床友好输出:系统会自动将 REPL 记录转化为符合放射科规范的 PDF 报告。

生成的临床 PDF 报告 图 2:RVLM 自动生成的临床 PDF 指向:包含分割统计、执行数据及 AI 免责声明。

5. 局限性与展望

尽管 RVLM 在 Brain MRI 和 MIMIC-CXR 上表现卓越,但目前仍局限于 2D 切片。未来的演进方向包括:全体积 3D 递归导航(模型自主决定查看哪个层面)以及基于不确定性的递归触发(只有当模型“不确定”时才申请更多迭代预算)。

总结

RVLM 证明了医疗 AI 并不一定要在“精度”和“解释性”之间做选择。通过将视觉任务分解为可执行的递归步骤,我们既得到了 SOTA 的诊断深度,也得到了应对监管的可追溯证据链。

Find Similar Papers

Try Our Examples

  • 查找最近其他将大语言模型(LLM)与可执行代码环境(REPL)结合用于多模态推理的 SOTA 论文。
  • 哪篇论文最早提出了“递归语言模型 (Recursive Language Models)”的概念,RVLM 在此基础上针对视觉任务做了哪些核心架构改进?
  • 有哪些研究正在探索将类似 RRouter 的自适应计算(Adaptive Computation)机制应用到 3D 医疗影像(如 CT 或全幻灯片图像)的自动化诊断中?
Contents
[Preprint 2026] RVLM:递归视觉语言模型,开启临床诊断的可审计与自适应时代
1. TL;DR
2. 核心定位
3. 1. 痛点:为什么单次推理不够用?
4. 2. Methodology:递归视觉推理与自适应深度
4.1. 2.1 视觉 REPL 环境 (EV)
4.2. 2.2 RRouter:任务复杂性预测
5. 3. 实验结果:不仅仅是准确率
5.1. 3.1 脑膜瘤亚区表征 (BraTS 2023)
5.2. 3.2 成本效率
6. 4. 深度洞察:符合监管的“内生透明度”
7. 5. 局限性与展望
8. 总结