TiCo: Time-Controllable Training for Spoken Dialogue Models

WisPaper

Scholar Search

Scholar QA

Pricing

TrueCite

Workspace

Home

Blog

TiCo: Time-Controllable Training for Spoken Dialogue Models

[arXiv 2503] TiCo：开启语音对话模型的“时间观念”，实现秒级时控生成

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 TiCo，一种简单的两阶段后期训练方法，旨在增强语音对话模型（SDMs）的时间控制能力。通过引入语音时间标记（Spoken Time Markers, STM），TiCo 使模型能够在生成过程中感知已用时间并调整回复长度，在 TiCo-Bench 测试中显著优于商业模型和级联系统。

TL;DR

在与语音助手交互时，你是否遇到过它“滔滔不绝”却无法按你要求精简回复的情况？MIT 与台大（NTU）推出的 TiCo (Time-Controllable Training) 框架，通过给模型植入一个“内置时钟”，让其掌握了精准控制回复时长的能力。TiCo 不仅在时控精度上大幅超越 GPT-4 级联系统，还具备极强的跨模态泛化能力。

背景：为什么语音控制比文本控制难得多？

在文本大模型中，控制字数（Length Control）已经很成熟。但在语音领域（SDMs），“控制 15 秒”是一个典型的 Hard Problem：

非线性关系：100 个单词在不同语速下可能是 10 秒，也可能是 20 秒。
声学变数：停顿、重音、音节构成都会剧烈改动实际时长。
缺乏反馈：传统模型在生成中间表示（Intermediate Representation）时，完全不知道这些内容转化成语音后会耗时多久。

核心机制：TiCo 的“两步走”策略

TiCo 并没有改变模型底层的声学合成器，而是改造了模型的“思考方式”。

1. 建立时间感知 (Time-Awareness)

作者引入了 Spoken Time Markers (STM)。在模型生成的中间文本中，每隔一段就会插入一个类似 <6.8 seconds> 的标记。

训练数据获取：利用模型自生成（Self-generation）语音，再通过 ASR 语音识别获得对应文本精确的时间戳。
意义：这让模型学会了“预估进度”。当它写下某句话时，它能预测到此刻已经过去了多少秒。

2. 精准对齐与强化学习 (RLVR)

有了感知还不够，还需要“执行力”。作者使用了 GRPO (Group Relative Policy Optimization) 强化学习算法。

奖励设计：如果生成的最后一个 STM 标记与目标时长（Instruction）越接近，奖励越高。
辅助约束：为了防止模型“作弊”（例如乱报时间或者重复说话），作者设计了单调性奖励和惩罚机制，确保时间戳逻辑自洽。

TiCo 架构图

实验战绩：全方位超越级联系统

研究团队构建了首个语音时控基准 TiCo-Bench。结果显示：

精度飞跃：在短任务（10-30s）中，TiCo 的误差仅为 3.16s，而最强的 Cascade (GPT) 级联系统误差为 4.09s，普通的 Qwen2.5-Omni 误差则高达 7.55s。
跨模态泛化：虽然 TiCo 只在“语音输入”上训练，但在“文本输入”测试中（如由文本提问要求语音回答），其 MAE 依然领先，证明了时间控制已内化为一种通用的推理能力。

实验结果对比

深度洞察：它是如何“偷时间”的？

通过对生成结果的定性分析（Qualitative Analysis），我们发现 TiCo 学会了人类的沟通技巧：

针对短时间目标：模型会变得直击主题，语感简洁。
针对长时间目标：模型并不会单纯放慢语速（那会很奇怪），而是会动态增加内容密度——增加背景解释、补充细节或增加结尾引导。

例子：回答“大海有多深？”

目标 15s：它会直接告诉你马里亚纳海沟的深度和平均深度。

目标 40s：它在说出深度的基础上，会额外解释为什么不同海域深度不同，并询问你是否想了解更多。

总结与未来展望

TiCo 的成功不仅在于它解决了语音时长控制的问题，更在于它展示了一种**“带约束的语义规划”**能力。这种将不可见的物理约束（时间）转化为可见的符号序列（STM）的方法，可以很容易地推广到其他多模态领域。

局限性：目前 TiCo 仍依赖于 intermediate representation（Thinker-Talker 架构），对于完全端到端、无中间文本的语音模型，如何插入此类感知标记仍是一个挑战。

启示：

对于开发者而言，TiCo 提供了一个低成本（仅需少量数据）为现有大模型增加特定属性控制的有效路径——感知先行，强化跟随。

Find Similar Papers

Try Our Examples

查找最近其他试图在语音语言模型中实现细粒度属性控制（如语速、情感、停顿）的研究论文。
哪篇论文最早提出了在 LLM 中使用时间或长度标记（Time/Length Markers）进行对齐，本文在强化学习奖励设计上对其有哪些改进？
有哪些研究探讨了如何将 RLVR 或 GRPO 应用于非数学推理类的感知任务，如多模态生成的时间戳对齐？

Contents

[arXiv 2503] TiCo：开启语音对话模型的“时间观念”，实现秒级时控生成

1. TL;DR

2. 背景：为什么语音控制比文本控制难得多？

3. 核心机制：TiCo 的“两步走”策略

3.1. 1. 建立时间感知 (Time-Awareness)

3.2. 2. 精准对齐与强化学习 (RLVR)

4. 实验战绩：全方位超越级联系统

5. 深度洞察：它是如何“偷时间”的？

6. 总结与未来展望

6.1. 启示：