“机器学习中的‘正式认证’到底意味着什么?”
形式化认证意味着通过数学证明(而非仅靠测试)来确保机器学习模型在所有可能条件下都能正确运行。传统测试仅检查少量样本,而可满足性模理论(SMT)求解器或障碍证书等形式化方法则能对整个输入空间中的属性进行穷举验证[1][7]。例如,一项研究将基于树的模型编码为逻辑公式,并证明没有任何可能的输入会违反诸如“地下水位深度必须符合物理一致性”这类安全规则[1]。
这与SHAP和LIME等事后可解释性工具有本质区别,后者仅能近似诊断单个预测结果。同一项研究表明,在模型违反安全规范的反例中,违规特征在SHAP重要性排序中可能垫底,这证明解释无法替代形式化证明[1]。
“代价是什么?准确性与安全性之间的权衡是真实存在的。”
最有力的证据来自2026年的一项研究,该研究对基于7291个岩土工程站点训练的33种XGBoost和可解释增强机(EBM)变体进行了形式化验证。无约束的EBM达到了80.1%的准确率,但违反了全部四项物理安全规范;而完全约束的EBM满足其中三项规范,准确率却降至67.2%[1]。该研究中没有任何变体同时实现超过80%的准确率和完全合规,揭示了预测性能与可证明安全性之间长期存在的权衡关系。
这种权衡并非岩土工程模型所独有。2025年一项针对46项机器学习安全形式化方法研究的系统性文献综述证实,扩展到大型模型以及与训练过程的整合仍是长期存在的挑战[3]。该综述指出,尽管可达性分析、基于SMT的验证和控制屏障函数等技术已取得进展,但实际应用验证仍然有限[3]。
当今真实系统是如何获得认证的?
在航空领域,2025年的一项案例研究展示了一种端到端的认证工作流程,该流程针对集成两个深度神经网络的飞机紧急制动系统(AEBS)展开。研究系统地将机器学习保证流程映射到传统的设计保证等级(DAL)C目标上,表明当统计方法与安全评估紧密结合时,认证是可行的[6]。这是一项实践参考,而不仅仅是理论。
另一种名为“携带证明的机器学习”(Proof-Carrying Machine Learning, PCML)的方法,为模型配备了明确且可核查的证据——包括证明、证书或可验证的产物——用以在既定假设下支撑其安全性声明[2]。这重新将认证界定为一种治理问题:“证明”必须将假设、适用范围条件以及监控职责与自主系统所做的决策绑定在一起[2]。类似地,2025年的一项框架将对抗训练与可微逻辑统一起来,在训练过程中强制执行逻辑规范,并在无人机神经网络控制器上得到了验证[5]。
正式认证目前还无法做到什么?
形式化认证在规模化、不确定性及新兴模型类型方面面临挑战。2026年对机器学习形式化方法的回顾指出,扩展到大型复杂模型的能力是一大短板,同时缺乏实际场景验证以及与训练流程的整合[3]。例如,在多次消息传递步骤中验证具有不确定节点特征和图结构的图神经网络仍是一个未解难题[8]。神经常微分方程作为一种较新的连续模型类别,尽管在图像识别上表现更优,但其安全性研究几乎空白[4]。
即使认证可行,也往往需要严格的假设条件。2025年提出的针对数据投毒和规避攻击的鲁棒性认证框架引入了屏障证书与可能近似正确(PAC)界限,但这些方法依赖于将训练过程建模为离散时间动态系统——这一假设可能不适用于所有架构[7]。核心结论是:形式化认证技术正在快速发展,但尚未成为适用于所有安全关键领域机器学习系统的即插即用解决方案。
本文引用的文献
针对侧向扩展现象的基于树的机器学习模型的形式化验证
在测试的33个模型变体中,没有任何一个同时实现超过80%的准确率并完全满足全部四项物理安全规范;未受约束的EBM(准确率80.1%)违反了全部四项,而完全受约束的EBM(准确率67.2%)仅满足其中三项[1]。
面向安全关键自主系统的携带证明机器学习
证明携带机器学习(PCML)将认证重新定义为:在发布模型时附带明确、可核查的证据(证明、证书),将假设与监控职责与安全声明绑定在一起[2]。
面向安全关键机器学习的正式方法:一项系统性文献综述
一项对46项研究(2020–2025年)的系统性综述发现,可扩展至大型模型、与训练过程的整合以及有限的实际验证,仍是形式化方法在机器学习安全领域面临的持续挑战[3]。
神经ODE在自动驾驶安全性评估中的形式化验证
神经ODE在安全性和形式化保证方面的研究尚显不足,尽管其在图像识别任务中展现出优于经典神经网络的性能[4]。
属性驱动机器学习的一般框架
一个结合了对抗训练与可微逻辑的统一框架已在无人机神经网络控制器上得到验证,实现了属性驱动的学习[5]。
航空领域机器学习认证:端到端DAL C案例研究
一项关于飞机紧急制动系统(AEBS)的端到端认证案例研究,通过两个深度神经网络将机器学习保障映射至DAL C目标,提供了实践参考[7]。
针对数据投毒与规避攻击的神经网络鲁棒性证书
一个基于屏障证书和PAC界限的形式化鲁棒性认证框架,在MNIST、SVHN、CIFAR-10和CIFAR-100数据集上,针对投毒攻击和逃避攻击均认证了非平凡的扰动预算[10]。
图卷积网络在节点特征不确定与图结构不确定条件下的形式化验证
先前的研究未能在多步消息传递过程中,验证通用图卷积网络在节点特征和图结构存在不确定性时的鲁棒性;本研究通过采用多项式区域分析[11]填补了这一空白。
