自监督学习何时真正超越监督学习?
当标记数据有限而未标记数据充足时,自监督学习(SSL)始终优于全监督方法。在一项针对64名情绪障碍患者的可穿戴传感器研究中,基于161名未标记受试者预训练的SSL模型正确识别了81.2%的急性发作片段,而相同神经网络从头训练的准确率为75.4%,传统XGBoost模型仅为72.0%[1]。这带来了6至9个百分点的提升——在临床筛查中具有实际意义。
在医学影像领域,基于近170万张无标注前列腺MRI图像训练的SSL模型,在三项癌症检测任务中表现与全监督模型相当甚至更优,同时数据效率更高——这意味着达到相同准确率所需的标注病例更少[2]。同样的模式也适用于多媒体推荐:一个基于SSL引导的系统在三个真实世界数据集上,其表现超越了LightGCN、MMGCN等最先进的监督式推荐模型[4]。
决定自监督学习(SSL)能否成功的关键因素是什么?
两个因素最为关键:未标注数据的数量以及预训练任务的选择。情绪障碍研究发现,自监督学习(SSL)的性能与预训练所用的具体替代任务以及未标注数据集的规模“密切相关”[1]。更多的未标注数据持续提升了结果,但错误的预训练任务可能会抵消这些收益。
在图基半监督学习中,一项综合性调查将方法分为四类——基于生成、基于辅助属性、基于对比以及混合方法——并指出对比方法(即训练模型区分相似与不相似样本)目前最为流行且有效[5]。针对纵向脑部MRI,一种名为LSSL的专用半监督学习方法无需任何标签即可从扫描图像中分离出脑龄信息,其学习到的表征有助于下游监督分类器更快收敛,并达到更高或同等的准确率[3]。
有哪些注意事项?SSL在哪些情况下表现不佳?
SSL并非免费的午餐。它需要大量、多样化的无标签数据集——例如,那项情绪障碍研究使用了161名受试者进行预训练,却仅惠及64名有标签的患者[1]。如果你无法获取充足的无标签数据,那么SSL相比精心调优的有监督模型,可能几乎不会带来任何改进。
预训练任务的选择至关重要且并非显而易见。同一项研究表明,自监督学习(SSL)的性能会因所采用的替代任务不同而产生巨大差异,若选择不当,其表现甚至可能不如简单的基线模型[1]。此外,SSL方法的实现与调优更为复杂,需要具备数据增强、对比学习及迁移学习等方面的专业知识[4][5]。对于拥有充足标注数据的简单问题而言,简单的监督模型可能速度更快且准确度相当。
本文引用的文献
受试者玩《超级马里奥》、参加大学考试或进行体育锻炼时产生的可穿戴数据,通过自监督学习有助于检测急性心境障碍发作:一项前瞻性、探索性、观察性研究。
基于161名未标注受试者的SSL预训练模型,正确识别了来自可穿戴设备的81.2%的急性情绪障碍片段,优于全监督的E4mer(75.4%)和XGBoost(72.0%)——提升了6至9个百分点。
自监督学习提升了双参数前列腺MRI分类的性能。
在170万张无标注的前列腺MRI图像上训练的SSL模型,在三个癌症检测任务中达到或超越了全监督基线水平,同时数据利用效率更高。
纵向自监督学习
纵向自监督学习(LSSL)从无标注的MRI序列中解耦出脑龄信息,其学习到的表征帮助有监督分类器更快收敛,并达到更高或同等的准确率。
多媒体推荐中的自监督学习
SSL引导的多媒体推荐(SLMRec)在三个真实世界数据集上显著优于LightGCN和MMGCN等最先进的监督式推荐模型。
图自监督学习:综述
一项关于图自监督学习的全面综述将现有方法分为四类(生成式、辅助属性、对比式与混合式),并指出对比式方法最为流行且效果最佳。
