TETO: Tracking Events with Teacher Observation for Motion Estimation and Frame Interpolation

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

TETO: Tracking Events with Teacher Observation for Motion Estimation and Frame Interpolation

[arXiv 2026] TETO：仅需25分钟真实数据，事件相机也能实现全能运动估计与插帧

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 TETO (Tracking Events with Teacher Observation)，一种基于教师-学生架构的事件相机运动估计框架。通过从预训练 RGB Tracker 中提取知识，仅需 25 分钟无标注真实世界数据即可实现 SOTA 级别的点追踪（Point Tracking）与光流（Optical Flow）估计，并成功应用于高质量视频插帧。

TL;DR

传统的事件相机研究往往陷入“合成数据规模”的陷阱，导致模型在真实复杂场景中表现不佳。TETO (Tracking Events with Teacher Observation) 另辟蹊径，抛弃了数小时的合成数据，转而通过知识蒸馏（Knowledge Distillation）从预训练的 RGB Tracker 中学习。仅凭 25 分钟的无标注真实数据，它就在点追踪、光流预测和视频插帧三大任务上刷新了 SOTA 记录。

1. 痛点：被“诅咒”的合成数据

事件相机（Event Camera）凭借微秒级的时空分辨率，理论上是处理极速运动（Fast Motion）的神器。然而，训练这些模型需要精确的运动标注，这在真实世界中极难获取。

前人工作如 ETAP 和 MATE 依赖于 EventKubric 等合成数据集。但作者通过对 事件间隔 (IEI) 的深度分析发现，合成数据与真实数据存在巨大的分布鸿沟：

Sim-to-Real Gap：合成模拟器（如 v2e）生成的事件往往存在周期性的人工痕迹，且密度比真实事件稀疏近 25 倍。
Overfitting：由于合成场景背景简单，模型容易对全局自我运动（Ego-motion）产生严重的归纳偏差，导致在处理独立运动物体时失效。

2. 核心方法论：从老师那里“偷取”直觉

TETO 的核心在于一个教师-学生蒸馏框架。其中老师是一个已经在海量数据上训练过的 RGB Tracker（如 AllTracker），而学生则是需要学习事件处理能力的 TETO。

2.1 运动感知的采样策略 (Motion-aware Sampling)

为了防止学生模型只学会跟着相机晃动（自我运动），作者通过 RANSAC 拟合全局仿射模型，剥离出残差光流，从而定位出场景中的独立运动物体区域。采样时，90% 的查询点被强制投射在这些动态区域中。

2.2 兼容结构：Concentration Network

为了直接复用预训练 RGB 模型的强大匹配能力，作者设计了一个轻量级的 U-Net（Concentration Network），将 B 通道的事件堆栈压缩成 3 通道表征。这保证了预训练的 Backbone 权重无需从头学习，从而极大地提高了小样本下的泛化能力。

TETO 整体架构图 图 1：通过 Concentration Network 将多通道事件转换为 RGB 兼容特征，并接收来自教师模型的伪标签监督。

3. 视频插帧：当扩散模型拥有“明晰的运动灵魂”

TETO 不仅仅是一个估计器，它为 视频插帧 (VFI) 提供了三层显式的运动先验：

Latent Warping：利用光流在潜空间对边界帧进行初步对齐。
Attention Supervision：利用 TETO 预测的长程轨迹点，通过 Huber Loss 约束扩散模型内部的 Attention Maps，强制模型关注真实的几何对应关系。
Event Motion Mask：直接从原始事件流量中提取掩码，告诉生成模型“这里有动静，重点画这里”。

插帧流程图 图 2：三管齐下的运动调节策略，将高质量运动先验注入视频扩散 Transformer（DiT）。

4. 实验战绩：以少胜多的典范

4.1 惊人的泛化性能

在 EVIMO2 上，TETO 以远少于对手的数据量实现了更高的 AJ 指标（67.9）。更令人振奋的是，在低光、极速等 RGB 教师模型模型彻底失效的场景下，TETO 依然能凭借对事件时空结构的理解输出连贯轨迹。

4.2 极速插帧

在插帧质量（FID/LPIPS）全面超越基线的同时，TETO-VFI 的推理速度比当前的 SOTA 扩散插帧方法 VDM-EVFI 快了足足 8.56 倍。

实验结果对比 图 3：在极端运动与动态物体场景下的点追踪对比，TETO 表现出极强的稳定性。

5. 局限性与展望

尽管 TETO 表现优异，但在处理流体运动（如喷泉、火焰）以及阴影诱导事件时仍面临挑战。因为阴影也会触发亮度变化，模型有时会误将阴影当成实体物体追踪。未来的研究可能会引入跨模态的推理，利用 RGB 的语义信息来过滤这些“虚假运动”。

结论

TETO 的意义在于它打破了“学术界必须卷合成数据规模”的思维定式。通过精细的数据策展和明晰的几何先验注入，真实的小样本数据同样能爆发巨大的模型生产力。

Find Similar Papers

Try Our Examples

查找最近一年内利用知识蒸馏（Knowledge Distillation）解决事件相机（Event Camera）缺乏真实世界标注问题的相关论文。
哪篇论文最早提出了全对点追踪（All-Pairs Point Tracking）范式，TETO 是如何将其 Concentration Network 融入该架构的？
探索将 TETO 提出的运动引导生成（Motion-conditioned Generation）技术应用到基于 3D Gaussian Splatting 的视频重建任务中的可能性。

Contents

[arXiv 2026] TETO：仅需25分钟真实数据，事件相机也能实现全能运动估计与插帧

1. TL;DR

2. 1. 痛点：被“诅咒”的合成数据

3. 2. 核心方法论：从老师那里“偷取”直觉

3.1. 2.1 运动感知的采样策略 (Motion-aware Sampling)

3.2. 2.2 兼容结构：Concentration Network

4. 3. 视频插帧：当扩散模型拥有“明晰的运动灵魂”

5. 4. 实验战绩：以少胜多的典范

5.1. 4.1 惊人的泛化性能

5.2. 4.2 极速插帧

6. 5. 局限性与展望

7. 结论