Learning to Reflect and Correct: Towards Better Decoding Trajectories for Large-Scale Generative Recommendation

WisPaper

Pricing

TrueCite

Workspace

Home

Blog

Learning to Reflect and Correct: Towards Better Decoding Trajectories for Large-Scale Generative Recommendation

[CVPR 2026/SIGIR] GRC：拒绝盲目生成，让推荐系统学会“反思”与“纠错”

Summary

Problem

Method

Results

Takeaways

Abstract

本文提出了 GRC (Generation-Reflection-Correction)，这是一种针对大规模生成式推荐 (Generative Recommendation, GR) 的结构化反思-修正框架。通过将传统的单次解码扩展为“生成-反思-修正”的三阶段过程，并结合 GRPO 强化学习优化解码轨迹，该方法在多个数据集上取得了高达 15.74% 的 recall 提升。

TL;DR

传统的生成式推荐 (Generative Recommendation, GR) 模型就像一个“一意孤行”的写作者，一旦开头写错，后面就会渐行渐远。阿里国际研发团队提出的 GRC (Generation-Reflection-Correction) 框架，首次为 GR 引入了类似人类思维的“反思-修正”机制。通过结构化的反思模版和 GRPO 强化学习优化，GRC 在工业级推荐场景中实现了 15.74% 的性能飞跃，并成功在日活亿级的广告系统中上线。

1. 痛点：自回归生成的“步步惊心”

在生成式推荐中，物品被表示为一系列离散的语义 Token（如 RQ-VAE 生成的层次化 ID）。模型通过预测这些 Token 序列来检索物品。

然而，一步错，步步错。

错误累积：自回归模型在推断时没有任何纠偏机会，第一个 Token 的偏移会导致后续预测完全陷入错误的语义簇。
黑盒局限：现有方法大多依赖 Teacher Forcing 训练，模型只见过正确的路径，一旦推断时发生概率漂移，它完全不知道如何回归“正轨”。

2. 核心方案：从 One-pass 到 GRC 的三位一体

为了打破“一锤子买卖”的解码局限，作者设计了一个精妙的结构化轨迹空间。

2.1 结构化反思模版 (Structured Template)

不同于 LLM 常用的自由文本反思（太慢且难以量化），GRC 定义了结构化反思信号：

Token 级定位 (Error Localization)：预测从第几个 Token 开始偏离了真实意图。
语义级一致性 (Semantic Consistency)：检查生成的草稿在类目、品牌等物理属性上是否与用户隐含需求匹配。

2.2 模型架构与解码流程

模型架构图 上图展示了 GRC 如何通过一个统一的 Transformer Decoder 完成“生成-反思-修正”的全过程。

3. 强化学习：利用 GRPO 探索最优修正路径

为了让模型不只是简单地模仿训练集，而是学会“遇到各种错误都能修好”，作者引入了 GRPO (Group Relative Policy Optimization)。

奖励函数 (Reward Shaping)：不仅奖励“最终生成的对不对”（Task Reward），还奖励“错误找得准不准”（Localization Reward）以及“修正后的提升幅度”（ $Δ$ Reward）。
群体相对增益：通过对同一用户生成的多个候选轨迹进行组内对比，减小了奖励值的方差，使得修正策略的训练更加稳定。

4. 工业落地：如何解决延迟挑战？

增加反思和修正步骤必然带来延迟。作者提出了 EGRS (Entropy-Guided Reflection Scheduling) 策略：

按需反思：通过计算反思 Token 的信息熵来评估模型对当前路径的“不确定性”。
动态算力分配：只有当模型感到“迷茫”（熵值高）时，才触发修正流程；信心足的路径则维持一阶段生成。这种机制确保了平均推理延迟仅增加了 4ms。

5. 实验战绩

在 Arts, Musical Instruments 以及超大规模的 Industrial Dataset 上，GRC 均碾压了包括 TIGER, COBRA 在内的强基线。

实验结果对比

关键结论：在规模越大的数据集上，GRC 的优势越明显（+15.74%）。这说明在大规模语义空间中，纠错能力正成为推荐系统的核心竞争力。
消融分析：去掉任何一部分奖励信号（尤其是 $R_{Δ}$ 质量提升奖）都会导致性能显著下滑，证明了“有目的的反思”才是有效的。

6. 总结与洞察

GRC 的成功标志着生成式推荐正从“模拟生成阶段”进化到“逻辑决策阶段”。

深度主编评论：

过去我们认为推荐系统只需要“预测准确”，但随着生成式架构的普及，推荐系统更像是一个在庞大图中寻找路径的 Agent。GRC 巧妙地将 LLM 的推理思想（Reasoning）通过结构化 Token 的形式降维实现在推荐场景，解决了推理延迟与推荐精度之间的经典博弈。这不仅是推荐算法的进步，更是 LLM 范式在垂直领域演进的重要样板。

Future Work：我们可以期待未来是否会出现“多轮迭代反思”或者“跨模态反思”的推荐框架，进一步压榨生成式模型的检索极限。

Find Similar Papers

Try Our Examples

查找最近其他试图解决生成式推荐 (Generative Recommendation) 中自回归解码错误累积或曝光偏差 (Exposure Bias) 的相关论文。
哪篇论文最早提出了 GRPO (Group Relative Policy Optimization) 算法，本研究是如何将其从数学推理任务迁移到推荐系统轨迹优化中的？
有哪些研究探讨了将 RLHF 或强化学习中的自我反思机制应用于大规模检索 (Retrieval) 或召回阶段的效率评估？

Contents

[CVPR 2026/SIGIR] GRC：拒绝盲目生成，让推荐系统学会“反思”与“纠错”

1. TL;DR

2. 1. 痛点：自回归生成的“步步惊心”

3. 2. 核心方案：从 One-pass 到 GRC 的三位一体

3.1. 2.1 结构化反思模版 (Structured Template)

3.2. 2.2 模型架构与解码流程

4. 3. 强化学习：利用 GRPO 探索最优修正路径

5. 4. 工业落地：如何解决延迟挑战？

6. 5. 实验战绩

7. 6. 总结与洞察