WisPaper
WisPaper
Search
QA
Pricing
TrueCite
ZAYA1-8B:当 700M 激活参数战胜 GPT-5?推理密度的新纪元
Summary
Problem
Method
Results
Takeaways
Abstract

本文推出了 ZAYA1-8B,一个基于 Zyphra MoE++ 架构的推理强化型混合专家模型,拥有 700M 激活参数和 8B 总参数。该模型在全栈 AMD 算力平台上训练而成,仅凭不足 1B 的激活参数,在 AIME'25 和 HMMT'25 等硬核数学竞赛榜单上达到了 91.9% 和 89.6% 的惊人准确率,比肩甚至超越了 DeepSeek-V3.2 和 GPT-5-High 等巨型模型。

TL;DR

Zyphra 发布了 ZAYA1-8B 技术报告,这是一个“以小博大”的推理专家模型。它仅凭借 0.7B 的激活参数(总规模 8B),通过全栈 AMD 训练基础设施和一种名为 Markovian RSA 的测试时计算(TTC)技术,在 AIME、HMMT 等数学竞赛任务上强力“越级打怪”,其表现甚至触及了 GPT-5-High 和 DeepSeek-V3 的边界。

核心定位:打破“参数即正义”的信条,通过极致的架构设计与推理算法协同,实现顶级的推理密度。

痛点深挖:为何推理总是“重体力活”?

传统推理模型面临两大难题:

  1. 参数冗余:Dense 模型在生成每一个 Token 时都要激活全部参数,即便是在简单的逻辑环节,极其低效。
  2. 上下文过载:思维链(CoT)推理越深,KV-Cache 就越大。现有的递归聚合方法(如 RSA)会将多个候选推理支流堆叠,导致上下文长度呈爆炸式增长,推理速度急剧下降。

核心方法论:ZAYA1-8B 的三支箭

1. 架构重构:MoE++ 与 ZAYA1 路由器

相比于标准的 Transformer MoE,ZAYA1-8B 做了三项激进改动:

  • CCA (Compressed Convolutional Attention):在压缩潜空间(Compressed Latent Space)进行序列混合,大幅减少了长上下文下的 KV-Cache 压力。
  • MLP 路由器:弃用了简单的线性路由器,改用多层 MLP。实验证明,增加路由器的表达能力能显著提升专家选择的准确性,从而实现更自信(低熵)的专家调用。
  • 残差缩放:精细控制深度网络中的残差流增长。

模型架构图 图 1: ZAYA1-8B 架构模型,重点展示了 CCA 注意力和 MLP 路由器的集成。

2. 训练的前置过滤:AP-Trimming (答案保留修剪)

为了让模型在只有 4K 长度的预训练初期就能学习长达 10K+ 的推理数据,作者提出了 AP-Trimming

  • 直觉:推理的前端是建模和规划,尾端是收尾。修剪掉推理链中间部分的冗余,但死死保住“开始部分的规划”和“最后的答案”,确保模型学到的是从逻辑起点到终点的映射,而非无头无尾的碎片。

3. 测试时计算的变体:Markovian RSA

这是 ZAYA1-8B 最硬核的黑科技。它结合了 RSA 的递归聚合与“马尔可夫思维”的边界感。

  • 怎么做:生成 个候选推理链,但只取每个链条最后 个 Token(尾部)传递给下一轮聚合。
  • 为何有效:这使得推理上下文是“有界”的。无论你推理多久、聚合多少次,预填充(Prefill)的显存占用始终维持在常量,解决了推理深度与计算资源之间的死循环。

实验与结果:小参数的奇迹

在 AIME'25 上,ZAYA1-8B 展现了恐怖的竞争力:

  • 对比 DeepSeek-R1-0528:ZAYA1 以极小的激活规模实现反超。
  • TTC 的魔力:引入 Markovian RSA 后,其性能从单轮的 88.3% 飙升至 91.9%。

实验结果对比 图 2: ZAYA1-8B 在不同激活参数量下的 AIME 表现,显著偏离了传统缩放曲线。

深度洞察:推理即过程,而非存储

ZAYA1-8B 的成功带来了一个关键启示:推理性能和事实记忆是解耦的

  • 大参数模型(如数百 B)强在博闻强识(MMLU 表现好)。
  • 小激活模型(如 ZAYA1)强在逻辑密度。

通过将更多算力分配给“思考过程”(测试时计算)而非“静态权重”,我们可以用极低的硬件成本实现顶尖的逻辑能力。这不仅是学术上的突破,更是为移动端边缘推理指明了方向。

局限性与展望

尽管在逻辑推理上称王,但在常识性任务(MMLU-Pro)上,ZAYA1 依然无法完全弥补其物理参数容量较小带来的知识缺口。此外,模型当前在多轮 Agent 交互任务中略逊于专门针对此优化的模型。Zyphra 团队表示,未来将进一步探索 Agentic RL 和更深度的算力缩放。

总结:ZAYA1-8B 告诉我们,只要路由够准、思考够深,1B 级别的核心也能撬动 AGI 的大门。

Find Similar Papers

Try Our Examples

  • 查找最近一年内其他在小规模模型(激活参数 < 2B)上利用强化学习实现数学推理 SOTA 的论文。
  • 哪篇工作首次提出了压缩卷积注意力 (CCA) 机制,其在长周期文本建模中相比 RoPE 或线性注意力的优势在哪?
  • 调研除了 Markovian RSA 之外,还有哪些试图通过固定推理窗口(Bounded Reasoning Window)来缓解计算瓶颈的最新方案?
Contents
ZAYA1-8B:当 700M 激活参数战胜 GPT-5?推理密度的新纪元
1. TL;DR
2. 痛点深挖:为何推理总是“重体力活”?
3. 核心方法论:ZAYA1-8B 的三支箭
3.1. 1. 架构重构:MoE++ 与 ZAYA1 路由器
3.2. 2. 训练的前置过滤:AP-Trimming (答案保留修剪)
3.3. 3. 测试时计算的变体:Markovian RSA
4. 实验与结果:小参数的奇迹
5. 深度洞察:推理即过程,而非存储
6. 局限性与展望