AniMatrix 是由腾讯 HY 团队开发的动漫视频生成模型,通过将优化目标从“物理正确”转向“艺术正确”,实现了对动漫特有表达(如拉伸、冲击帧、三头身转换)的精准捕捉。该模型在 SOTA 基线(如 Seedance-Pro 1.0)基础上,于提示词理解和艺术运动维度分别提升了 22.4% 和 16.9%。
TL;DR
长期以来,AI 视频生成领域一直被“物理模拟器”的叙事所主导,但腾讯 HY 团队的最新成果 AniMatrix 勇敢地提出了反面观点:动漫制作的精髓在于对物理规律的艺术性违背。AniMatrix 不再追求“看起来是真的”,而是追求“看起来艺(作)术(画)正(崩)确(坏)”。通过双通道控制架构和一套严密的制作知识系统,它在动漫生成的艺术表现力上彻底碾压了当前的通用 SOTA 模型。
1. 痛点:为什么物理模型做不好动漫?
现有的 SOTA 模型(如 Sora, Wan 2.2)之所以强大,是因为自然界遵循统一的物理定律(重力、动量守恒)。模型通过海量数据学习这种隐式的“物理先验”。
然而,动漫的设计初衷就是破坏物理:
- 运动规律的背离:角色跳跃不是抛物线,而是包含预备动作(Squash-and-stretch)、爆发性拉伸和戏剧性的空中悬停。
- 叙事需求的形变:战斗正酣时可能突然切换成三头身(Chibi)以调节气氛,这在物理世界中是不可理解的“形变”。
- 缺乏统一规律:宫崎骏的写实主义与今石洋之的狂想风格共存,这让试图寻找单一“动漫先验”的通用模型在训练时极易发生崩溃。
2. 核心挑战:重新定义“正确性”
AniMatrix 的核心逻辑是:既然物理是动漫的敌人,那就构建一套动漫生产知识系统(Production Knowledge System, PKS)。
2.1 工业化生产分类法 (Industrial Production Taxonomy)
作者将动漫的评价维度拆解为四个正交的轴,这更像是一个导演的现场指令:
- Style (S):风格流派。
- Motion (M):动作语义(不仅是做什么,还有动作的幅度与强度)。
- Camera (C):镜头调度。
- VFX (V):动漫特有的视觉特效语言(如青筋、汗珠、冲击波)。

3. 方法论:AniMatrix 的三大技术支柱
3.1 双通道调节架构 (Dual-Channel Conditioning)
为了平衡“硬性控制”与“艺术灵感”,AniMatrix 设计了两条路径:
- 轨道 1:标签编码器 (Tag Encoder)。处理具体的生产指令(如“推拉镜头 + 作画爆发”),通过 AdaLN 调制在每一层强制执行。
- 轨道 2:文本通道。利用冻结的 umT5 编码自由文本,负责传递情感氛围和叙事细节。 这种“严宽结合”的设计类似于导演通过分镜稿(标签)和口头指导(文本)共同完成创作。
3.2 风格-运动-变形课程学习 (Curriculum Learning)
直接让模型学习高度形变的动漫会导致崩盘。作者设计了一个由简入繁的“课程”:
- 初期:学习接近物理的轻微动感。
- 中期:引入风格的多样性。
- 后期:挑战极端的非刚体形变(Deformation)。
3.3 变形感知偏好优化 (DPO)
这是 AniMatrix 的点睛之笔。传统的 FVD 等指标会惩罚“形变”,但 AniMatrix 使用了一个专为动漫设计的奖励模型。它能教导模型认清:拉伸的肢体是艺术,而破碎的线条才是失败。
4. 实验结果:艺术表现力的降维打击
在由专业动画师进行的盲测中,AniMatrix 在“提示词理解”和“艺术运动”两个维度上展现了惊人的领先优势。

- 定量分析:相比 Seedance-Pro 1.0,AniMatrix 在艺术运动上的得分提升了 16.9%。
- 定性分析:在处理复杂的魔法护盾、高速俯冲等场景时,AniMatrix 能精准保持构图的稳定性,而基线模型往往会出现 VFX 消失或角色形变失控的情况。
5. 深度洞察:关于未来的启示
AniMatrix 的成功不仅仅是动漫迷的福音,它为 AI 视频生成指明了新的方向:
- 去物理化(Unlearning Physics):在处理高度风格化的内容时,通用物理模型可能是一个负资产。
- 生产流程对齐:未来的 AI 模型不应只是受众,而应成为生产流水线上的一环。AniMatrix 这种基于四轴分类法的设计,使其能够无缝嵌入现有的动画工作流。
局限性:目前模型仍依赖文本驱动。作者在展望中提到的 AniMatrix-Uni(原生多模态版本)将支持角色设计图、分镜稿甚至是音频直接驱动,这才是通往全自动动漫产线的真正终点。
总结:AniMatrix 告诉我们,AI 模型也可以拥有“艺术灵魂”,只要我们能用正确的数学语言给它定义什么是美。
