本文提出了 Mesh-Pro,一个专为艺术家级四边形网格(Quadrilateral Mesh)生成设计的异步在线强化学习框架。核心贡献包括异步优势引导排序偏好优化(ARPO)算法、对角线感知的混合拓扑 Token 化方案以及基于射线投射的几何完整度奖励机制。
TL;DR
在 3D 建模领域,能够生成符合艺术家审美、具有规则边流(Edge Flow)的四边形网格(Quad Mesh)一直是“圣杯”级任务。Mesh-Pro 首次将异步在线强化学习引入该领域,通过 ARPO 算法 解决了离线 DPO 泛化差和同步 RL 效率低的双重挑战,实现了 3.75 倍的训练加速,并在拓扑规整度上刷新了 SOTA 记录。
1. 痛点:为什么 3D 网格的 RL 这么难?
现有的 3D 生成模型(如 MeshAnything, QuadGPT)在处理复杂拓扑时常出现大面积穿孔、非流形表面和拓扑混乱。其根源在于:
- 离线 DPO 的局限:静态数据集无法捕捉模型在训练过程中的动态分布偏差,导致泛化性差。
- 同步 RL 的低效:由于 3D 网格 Token 长度跨度极大,同步更新模式下 GPU 往往在等待最短序列完成采样,造成极大资源浪费。
- Token 化缺陷:传统方法要求模型先选择“面类型”再生成坐标,这种提前承诺(Premature Commitment)增加了预测压力。
2. 核心突破:异步架构与 ARPO 算法
作者借鉴了 LLM 领域的高性能 RL 框架,设计了首个适用于 3D 网格的异步在线 RL 系统。
2.1 异步在线 RL 框架
框架通过 Rollout Workers(采样)和 Trainer Workers(训练)的并行工作流程,消除了 worker 间的闲置等待。引入了 Pre-Start 阶段,通过先积累数据再更新,保证了训练初期的稳定性。

2.2 ARPO:在效率与泛化间寻找最优解
ARPO(Advantage-guided Ranking Preference Optimization)是本文的数学核心。它通过 Plackett-Luce 排序模型实现了类似 DPO 的平滑收敛,同时显式地引入了 Advantage 函数作为加权因子。
- 直觉:高 Advantage 的样本(表现远优于基准)被赋予更高权重,引导模型学习底层奖励分布,而非仅仅进行样本匹配。
- 公式推导:当组号 (Group) 为 2 时,ARPO 会退化为经典的异步 DPO。
3. 方法论:对角线感知 Token 与射向奖励
3.1 延迟决策的 Token 化 (Generate-then-Decide)
Mesh-Pro 引入了 Diagonal-Aware Tokenization。模型先生成三个顶点的基础三角形,在最后一个位置通过 Special Token 决定是停留在三角形,还是通过对角线标志(Flag)将其扩展为四边形。

3.2 鲁棒性奖励设计
- Ray Casting Integrity (Rray):从多方向投射射线,通过检测反面(Back-face)命中率来量化破碎度(Broken Ratio)。相比传统的边界边检测,它对多组件物体(如带配件的角色)更鲁棒。
- Topological Reward (Rtopo):通过寻找“Quad Rings”(闭合环)和“Quad Lines”(边流线)来奖励具有工业标准的网格结构。
4. 实验战绩
在 Dense Mesh 和 Artist Mesh 两大测试集上,Mesh-Pro 展现出统治级表现:
- 几何完整度:破碎率从 QuadGPT 的 50% 骤降至 22%。
- 用户研究 (US):在盲测中显著领先于 DeepMesh、Mesh-RFT 等竞争对手。
- 训练速度:相同硬件下,异步框架耗时仅为同步架构的 26.6%。

5. 总结与洞察
Mesh-Pro 的成功不仅在于算法的改良,更在于其对 3D 数据特殊性的理解。ARPO 的提出证明了在 3D 这种动作空间巨大且奖励稀疏的领域,隐式偏好学习 + 显式 Advantage 引导 是一种比纯 GRPO 或纯 DPO 更实用的路径。
未来的挑战在于如何进一步控制面数(Face Count)以及应对 RL 后期可能出现的“奖励作弊(Reward Hacking)”现象,但这篇工作无疑为 3D 生成从“能看”到“能用(游戏级)”跨出了关键一步。
