本文提出了 EvoX,一种用于自动算法与科学发现的元进化(Meta-Evolution)框架。该方法通过 LLM 同时演化“候选解决方案”和“搜索策略”本身,在包括数学优化、系统性能提升及算法竞赛等近 200 个真实任务中刷新了 SOTA。
TL;DR
UC Berkeley 团队提出的 EvoX 彻底改变了 LLM 驱动的进化搜索范式。它不再使用死板的时间表或比例来决定何时该“保守改进”或“大胆创新”,而是通过**元进化(Meta-Evolution)**机制,让 LLM 自己演化出最适合当前问题的搜索策略。在近 200 个数学、代码和系统优化任务中,EvoX 展现了惊人的自适应能力,性能全面超越 AlphaEvolve 等前作。
动机:为什么你的 AI 搜索会“卡住”?
在自动算法发现(Automated Discovery)领域,目前的 SOTA 方法主要是将 LLM 作为“变异器”接入进化算法工作流。然而,它们都有一个共同的软肋:搜索策略是死的。
作者观察到,不同的优化阶段需要截然不同的搜索行为:
- 初期:需要大胆的 Structural Variation 来探索解空间的轮廓。
- 中期:需要 Multi-Objective Sampling 来平衡性能与多样性。
- 后期:需要精准的 Local Refinement 进行收敛。
传统的固定策略(如 MAP-Elites 或固定的 Exploration 指标)无法适应这种动态需求,导致即便底层 LLM(如 GPT-5)能力再强,也会因为采样姿势不对而陷入停滞。
EvoX:搜索策略的“套娃”式进化
EvoX 的核心直觉是:既然 LLM 能写代码,为什么不让它写“搜索算法”本身?
双层进化架构
EvoX 将整个过程拆分为两个协同运行的循环:
- Inner Loop(解决方案演化):利用当前策略生成的 Context(父本选择、变异操作符、参考样本)来产生新的 Candidate。
- Outer Loop(元进化):监控 Inner Loop 的进展。如果发现经过一个窗口期后得分没有提升(Stagnation),则触发 Meta-Step。此时,LLM 会回顾历史策略的得失,并结合当前种群的统计特征(如得分分布、母本重复率),变异出一个新的搜索策略。

状态感知(Population Descriptor)
EvoX 不仅仅是随机更替策略。它通过一个描述符 将种群的宏观状态反馈给 Meta-LLM,包括得分的分位点、前 K 个解的结构差异、以及最近窗口的搜索反馈。这使得 LLM 能够像人类专家一样诊断:“现在的解太单一了,我们需要更多的多样性”,从而生成带有 UCB(置信区间上界)性质的采样策略。
实验:从数学之美到系统优化
EvoX 在多达 196 个任务中证明了其通用性。
1. 数学优化(Circle Packing & Heilbronn Triangle)
在经典的几何优化问题中,EvoX 发现了定性的新解法。例如在 Circle Packing 中,它不仅在数值上超过了 AlphaEvolve,更重要的是,它能在进化中途自动从“随机扰动策略”切换到“基于 SLSQP 的受限数值预测策略”,这种从“启发式”到“严谨优化算法”的范式转移是静态方法无法企及的。

2. 系统性能(PRISM & Cloudcast)
在复杂的工业级任务如 GPU 模型调度 (PRISM) 中,EvoX 发现了一种最小化 KV-cache 压力的放置策略,性能提升远超人类专家的硬编码规则。
3. 可视化案例:信号处理
如下图所示,EvoX 的得分曲线(蓝色)在多个监控点通过“换挡”(策略更替)实现了阶梯式的跳跃。
- Phase 2 进入了“分层+多目标采样”,实现了最大幅度的性能跳跃。
- Phase 4 则精准识别出接近饱和,转而进行“局部打磨(Local Refinement)”。

洞察与总结
EvoX 的成功揭示了 LLM 驱动发现的一个核心真理:算法发现的瓶颈不在于 LLM 本身的知识边界,而在于我们引导 LLM 进行搜索的架构。
核心 takeaway:
- 自适应性是第一生产力:静态参数在长程搜索中注定失败。
- 元数据反馈:只有让 LLM 看到“搜索过程的元统计数据”,它才能像真正的科学家一样调整实验方案。
局限性:EvoX 虽然高效,但其元进化的逻辑(Outer Loop)仍依赖于高性能 LLM(如 GPT-5 或 Gemini 3.0 Pro),这可能带来较高的 API 成本。如何在端侧或使用更小规模的模型实现这种元进化能力,将是未来的重要方向。
本文基于 arXiv 论文数据构建,致力于传播前沿 AI 学术价值。
