DexDrummer: In-Hand, Contact-Rich, and Long-Horizon Dexterous Robot Drumming

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

DexDrummer: In-Hand, Contact-Rich, and Long-Horizon Dexterous Robot Drumming

[2026] DexDrummer：突破灵巧操作极限，机器人也能玩转架子鼓

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 DexDrummer，一个能够实现双手、高频接触且长程稳定的机器人架子鼓演奏框架。该系统通过分层强化学习（Hierarchical RL）和物体中心（Object-centric）的策略，实现了在仿真环境及真实世界中对鼓棒的精细手内操控（In-hand Manipulation）与节奏对齐。

TL;DR

演奏架子鼓对机器人而言是一项“终极挑战”：它要求在高速移动中保持手内鼓棒的稳定（手内操作）、处理鼓棒与鼓面频繁的物理撞击（高频接触），并维持长达数十秒甚至数分钟的节奏感（长程任务）。斯坦福大学的研究团队推出的 DexDrummer，通过一种层级式物体中心化策略，成功让配备 20 自由度灵巧手的机器人实现了仿人化的击鼓表现。

核心速览

传统的灵巧手研究往往局限于“转魔方”或“拿起杯子”这种孤立任务。DexDrummer 的核心价值在于它证明了：通过残差 RL (Residual RL) 修正全局规划，并配合手指主导的接触奖励机制，机器人可以处理极高复杂度的动态交互任务。

1. 为什么击鼓这么难？（挑战与动机）

作者指出，目前的灵巧操作主要受限于三个维度的脱节：

手内控制 (In-Hand Control)：击鼓时鼓棒会滑动，机器人必须实时调整手指位置。
接触丰富度 (Contact-Rich)：每一次击打鼓面都是一次剧烈的外部扰动，会打破原本的动力学平衡。
长程鲁棒性 (Long-Horizon)：随着演奏时间增加，误差会不断累积，导致逻辑链条断裂。

以往的方法要么固定死抓握点（无法应对滑动），要么使用纯 RL（难以学习长距离的跨鼓移动）。

2. DexDrummer 的架构：分层治理

为了平衡“全局移动”与“局部灵巧”，DexDrummer 采用了双层分层架构。

A. 高层策略：残差的力量

系统首先生成鼓棒在空间中的参考轨迹，通过运动规划（Motion Planning）计算手臂的大致动作。然而，高速运动下机械臂会有跟踪误差。这时，残差 RL (Residual RL) 介入，在标称轨迹之上学习一个小幅度的修正量，极大地缩小了动作空间，提高了学习效率。

B. 低层策略：精细的手指控制

真正的“灵巧”发生在指尖。为了让机器人像人类鼓手一样用手指（而不是死板的手臂）去“弹”鼓，作者设计了独特的奖励函数：

支点奖励 (Fulcrum Reward)：强制拇指和食指稳住鼓棒中心。
手臂能量惩罚 (Arm Penalty)：如果机械臂动得太多，奖励会变少，这逼迫模型学会用更节能、更快速的手指拨动来完成击球。

DexDrummer 架构图 图 1：DexDrummer 框架概览，展示了从高层轨迹规划到低层接触奖励的全过程。

3. 教学黑科技：接触课程学习 (Contact Curriculum)

在训练初期，鼓面的存在反而会阻碍手指学习如何旋转鼓棒（因为鼓棒总会被鼓面挡住）。作者引入了一个极其简单但有效的 Trick：接触课程学习。在训练的前 10,000 步，鼓棒和鼓面之间的碰撞检测是关闭的。机器人可以先在“真空”中学会完美地跟踪点击轨迹，等到掌握了基本的挥动技巧，再引入力学反馈进行微调。

4. 实验战绩与 SOTA 对比

在 ManiSkill 仿真环境和真实 Franka + Tesollo 机器人平台上的测试显示：

反应式抓握的必要性：相比于冷冻手指关节的“固定抓握（Fixed Grasp）”，DexDrummer 的“反应式抓握（Reactive Grasp）”在处理长程任务时的鼓棒保持率和 F1 成绩大幅领先。
手指驱动 vs 手臂驱动：实验证明，在高频率（BPM 180+）下，手臂驱动的方案完全失效，而手指驱动方案依然能保持极佳的轨迹跟踪精度，且功耗降低了 70% 以上。

实验结果对比 图 2：反应式抓握在复杂长程任务中的稳定性远超固定抓握。

5. 深度洞察：拟人化行为的涌现

最令人惊讶的是，在 240 BPM 的高速练习曲线中，机器人自发学会了人类鼓手的技巧：在下击时利用后三指挤压鼓棒产生爆发力。 这种行为并非人工预设，而是为了优化能量惩罚下的打击力度而自然“演化”出来的。

实物操作演示 图 3：真实世界部署：机器人表现出在撞击硬质鼓垫时收紧抓握，在撞击镲片时放松抓握的自适应能力。

6. 总结与展望

DexDrummer 不仅仅是一个会打鼓的机器人，它构建了一套处理高动态、强交互任务的范式。

局限性：目前仅能处理慢速或降速后的乐曲，距离真正的人类极限（如 300 BPM 以上的死亡金属鼓点）还有差距。
未来启示：这种将“能量约束”作为归纳偏置（Inductive Bias）来激发手指灵巧性的思路，对于所有需要精细操作的工业场景（如柔性装配、厨艺机器人）都极具参考价值。

Find Similar Papers

Try Our Examples

查找最近一年关于机器人手内操作（In-hand Manipulation）中应对高频撞击和外部扰动的最新论文。
残差强化学习（Residual Reinforcement Learning）在机器人轨迹跟踪任务中最初是如何被定义的，本文的层级式改进有何不同？
研究如何将 DexDrummer 的层级化架构扩展到其他需要工具交互的长程任务，如机器人烹饪或组装。

Contents

[2026] DexDrummer：突破灵巧操作极限，机器人也能玩转架子鼓

1. TL;DR

2. 核心速览

3. 1. 为什么击鼓这么难？（挑战与动机）

4. 2. DexDrummer 的架构：分层治理

4.1. A. 高层策略：残差的力量

4.2. B. 低层策略：精细的手指控制

5. 3. 教学黑科技：接触课程学习 (Contact Curriculum)

6. 4. 实验战绩与 SOTA 对比

7. 5. 深度洞察：拟人化行为的涌现

8. 6. 总结与展望