本文推出了 FLASH,一个专为接触密集型柔性物体操控(Deformable Manipulation)设计的 GPU 原生仿真框架。通过引入轻量化非光滑牛顿求解器(NCP-based Solver)和优化的 GPU 并行架构,FLASH 能够在单张 RTX 5090 上以 30 FPS 模拟超过 300 万自由度,实现了大规模策略训练从数天到分钟级的跨越。
TL;DR
传统的柔性物体仿真(如折叠衣物)由于接触点极多且形变复杂,一直是机器人学习的“算力黑洞”。来自新加坡国立大学(NUS)等机构的研究团队推出了 FLASH 系统,通过从底层重构非光滑牛顿物理求解器,利用 GPU 的极致并行能力,将原本需要数天的训练任务缩短至分钟级。该系统不仅快,而且能够实现免实拍数据、免微调的 Zero-shot Sim-to-Real 迁移。
1. 痛点深挖:为什么柔性仿真“又慢又脆”?
在处理刚体时,我们只需要关心重心和 6 个自由度;而在处理一件 T 恤时,我们需要模拟成千上万个顶点的相互作用。现有仿真器面临两大瓶颈:
- 计算爆炸:传统的隐式求解器在处理接触约束时,生成的数学矩阵(Schur Complement)会由于全局耦合变得非常稠密,GPU 跑起来像牛车。
- 物理失真:为了快,很多仿真器(如基于 PBD 的方法)牺牲了能量守恒,导致布料看起来像“面团”或产生不自然的弹跳,训练出的策略在现实中极易失效。
2. 核心方法论:FLASH 的硬件驱动创新
FLASH 的核心 Insight 在于:与其强行把老旧的单线程求解器代码移植到 GPU,不如根据 GPU 的内存特性重构物理引擎。
2.1 惯性主导的轻量化求解器 (Inertia-dominated Approximation)
作者发现,在布料操控中,接触响应主要由物体的惯性和局部几何决定。通过一种巧妙的数学近似,FLASH 避免了生成巨大的稠密矩阵,保持了矩阵的稀疏性。这意味着计算量随环境数量线性增长,而不是指数增长。
FLASH 系统全景概览:从并行仿真到教师-学生策略蒸馏
2.2 紧密耦合的感知增强
FLASH 直接在 GPU 显存内完成深度图渲染和自掩码(Self-occlusion)处理。为了对抗 Sim-to-Real 的感知Gap,系统在仿真时会故意加入边缘抖动、随机遮挡和运动噪声,强迫模型学习真正鲁棒的特征。
3. 实验战绩:全方位的跨平台吊打
研究团队对比了 Isaac Sim(FEM 求解器)、Newton(VBD 求解器)和 Genesis(PBD 求解器)。
- 真实感对比:在 T 恤折叠任务中,Isaac Sim 的衣服会产生诡异的皱缩,Genesis 则是疯狂滑动无法停稳,而 FLASH 的物理表现最接近真实世界(Real World)的自然垂坠感。
- 吞吐量测试:在模拟 300 万自由度时,FLASH 在单显卡上稳跑 30 FPS。
跨仿真器效果对比:FLASH 展现了最精确的摩擦力和形变平衡
4. 深度洞察:零样本迁移的秘诀
FLASH 不仅仅是一个快速的模拟器,它还是一套完整的机器人学习管线。通过:
- 分阶段有限状态机(FSM):先让掌握“上帝视角”的教师模型学会如何抓、拿、放。
- DAgger 蒸馏:学生模型只通过受限的深度视觉信息来模仿教师的行为。
- 自适应恢复:在真实实验中,当人类恶意扯开毛巾时,机器人能够通过视觉反馈自动重新尝试抓取,表现出极强的动态适应性。
5. 总结与展望
FLASH 的核心贡献是证明了:物理仿真的保真度并非速度的敌人。 只要深入底层数值计算的细节,就能为 Embodied AI 提供几乎无限且低成本的训练场景。
局限性:尽管目前物理拟合非常出色,但目前尚未加入触觉反馈(Tactile Feedback),对于极薄或弹性极大的特种面料,感知瓶颈依然存在。未来,将 FLASH 的高速仿真与大规模生成式模型结合,或许能让机器人真正在处理家务时“手到擒来”。
