UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

UniMotion: A Unified Framework for Motion-Text-Vision Understanding and Generation

[arXiv 2026] UniMotion：打破离散桎梏，运动、文本、视觉的三位一体统一框架

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 UniMotion，这是首个在统一架构下实现人体运动（Motion）、自然语言（Text）和 RGB 图像（Vision）全模态理解与生成的框架。通过将运动视为与图像平等的连续模态，UniMotion 在包括 T2M、V2M、M2T 在内的 7 项全模态任务上达到了 SOTA 水平。

TL;DR

在过去的一年中，虽然文本和图像的统一模型（如 Show-o, Janus）取得了长足进步，但人体运动（Human Motion）这一关键动态模态始终被排除在主流 MLLM 之外。UniMotion 横空出世，它是第一个在单一架构内实现运动-文本-图像“全对全”（Any-to-Any）理解与生成的统一框架。它摒弃了导致动作僵硬的离散 Token 方案，转而采用全连续路径设计，在 7 项跨模态任务中横扫 SOTA。

UniMotion 概览与性能对比

痛点深挖：为什么“运动”这么难搞？

现有的工作（如 MotionGPT 或 UniPose）通常面临两个核心瓶颈：

量化误差的代价：大多数模型使用 VQ-VAE 将运动转化为类似单词的离散 Token。通过这种方式，运动虽然能像语言一样喂给 LLM，但不可避免地引入了量化误差，导致生成的动作出现“抖动”（Jitter）和细节丢失。
监督信号的稀疏性：文本描述（如“一个人在走路”）非常抽象，而运动数据是极其密集的时空坐标。仅靠稀疏的文本去训练模型生成复杂的动作，会导致模型“理解不足”，难以捕捉步幅、协调性等细微特征。

核心方法论：UniMotion 的三项关键创新

1. 连续模态：CMA-VAE 与双路径 Embedder

UniMotion 的核心直觉是：运动应该像图像一样，作为连续特征进行处理。 作者设计了 CMA-VAE (Cross-Modal Aligned Motion VAE)。不同于标准的 VAE，它引入了 DPA (Dual-Posterior KL Alignment) 机制。在训练时，模型同时拥有一个“视觉融合编码器”和一个“纯运动编码器”，通过 KL 散度让后者去模仿前者。这意味着，即使在推理时没有图像输入，运动编码器也已经提前“学习”到了视觉上的语义空间。

在 Backbone 侧，UniMotion 采用了对称的双路径 Embedder：

Semantic Branch (语义路)：负责理解“他在做什么”，类似于 SigLIP。
Generation Branch (生成路)：负责保留骨骼运动的微小细节，类似于 PatchEmbed。

UniMotion 总体架构图

2. 潜在重构对齐 (LRA)：解决冷启动问题

模型在刚开始学习“运动”和“文本”对齐时非常痛苦。UniMotion 提出了 LRA (Latent Reconstruction Alignment)。这是一种自监督预训练策略：让模型尝试从噪声中重构出自身的运动潜变量 $z$。由于 $z$ 本身是密集的运动特征，这种“自我重构”任务为模型提供了精准且无歧义的几何监督，为后续复杂的跨模态对齐打下了坚实的基础。

3. 混合注意力与模态路由 LoRA

为了兼容文本的自回归（Autoregressive）特性和运动生成的流匹配（Flow Matching）特性，UniMotion 引入了：

Hybrid Attention：在运动 Token 内部允许全局双向关注，而整体序列保持因果序。
Modality-Routed LoRA：为运动和文本/视觉分别分配独立的低秩适配器（LoRA），极大地提升了多任务下的参数效率。

实验与结果：全维度的统治力

UniMotion 在包括 T2M (文本生运动)、M2T (运动描述)、V2M (视觉提炼运动) 等在内的七项任务中均表现优异。

1. 语义精准度

在 Motion-to-Text 任务中，UniMotion 的 BertScore 达到了 41.2，远超之前的基线模型。这意味着它生成的描述不再是干巴巴的模板，而是能精准捕捉动作的细节（如“逆时针转圈”而非简单的“走路”）。

2. 运动生成质量 (T2M)

通过 CMA-VAE 的连续表征，UniMotion 生成的动作极其平滑且符合物理常识。

实验结果对比表格

3. 突破性任务：MGIE

UniMotion 首次在单一潜空间内实现了运动引导的图像编辑 (MGIE)。用户可以给定一张图片和一个动作序列，模型能够直接生成该人物执行该动作后的图像，而无需显式渲染骨架图或借助中转文本。

深度洞察与总结

为什么 UniMotion 奏效了？ 本质上，它解决了跨模态对齐中的“分辨率”失配问题。传统的离散 Token 方案试图强行平滑化运动数据的复杂多样性，而 UniMotion 拥抱了连续性。它的 DPA 和 LRA 策略实际上是在建立一个“视觉-几何-语义”三者交织的流形空间。

局限性： 尽管 1.5B 的参数规模在手机或端侧设备上仍有压力，且对极复杂背景下的视觉运动对齐有待加强，但 UniMotion 为未来更强大的人体感知 AI 描绘了蓝图。

总结： UniMotion 不仅仅是一个刷榜模型，它成功地将人体运动这一“动态语言”编织进了大语言模型的版图中，这对于未来具身智能、元宇宙动画制作以及动作康复领域都具有里程碑式的意义。

Find Similar Papers

Try Our Examples

查找最近其他尝试在 Transformer 架构中将人体运动序列视为连续信号而非离散 Token 的论文。
针对多模态 LLM，除了双后验 KL 对齐 (DPA)，还有哪些方法能将视觉几何先验有效地蒸馏到运动表征中？
调研目前 SOTA 运动生成模型在处理复杂交互动作（如两人对练或操纵物体）时的局限性及应对策略。

Contents

[arXiv 2026] UniMotion：打破离散桎梏，运动、文本、视觉的三位一体统一框架

1. TL;DR

2. 痛点深挖：为什么“运动”这么难搞？

3. 核心方法论：UniMotion 的三项关键创新

3.1. 1. 连续模态：CMA-VAE 与双路径 Embedder

3.2. 2. 潜在重构对齐 (LRA)：解决冷启动问题

3.3. 3. 混合注意力与模态路由 LoRA

4. 实验与结果：全维度的统治力

4.1. 1. 语义精准度

4.2. 2. 运动生成质量 (T2M)

4.3. 3. 突破性任务：MGIE

5. 深度洞察与总结