自监督学习是表征学习的未来吗？

自监督学习在哪些方面优于传统方法？

自监督学习（SSL）在标注数据昂贵、稀缺或噪声较大的领域最具变革性。在视频分析中，由于时间维度的存在，人工标注成本尤为高昂，而SSL方法——如前置任务、生成式学习、对比学习及跨模态对齐——已展现出无需标签即可学习有效表征的潜力[1]。类似地，在基因表达分析中，SSL方法（对比式、生成式及混合式）在表型预测任务上超越了传统监督模型，同时减少了对昂贵标注数据的依赖[3]。在时间序列分类中，对比式SSL框架（TS-TCC）从无标签数据中学习到的表征，在线性评估下表现与全监督训练相当，且仅需少量标注样本即可实现高效性能[5]。这些结果表明，当标注数据有限时，SSL可成为更优选择。

自监督学习总是最佳方法吗？

不，自监督学习并非万能解决方案。其成功与否在很大程度上取决于数据模态、学习目标的设计以及下游任务。例如，在计算机视觉领域，不同的自监督学习方法（生成式与对比式）各有优劣，没有任何单一方法能主导所有任务[2]。在基因表达分析中，所测试的三种自监督学习方法各有特定的优势与局限，作者根据具体案例给出了方法选择建议[3]。此外，在推荐系统中，尽管自监督学习通过减少对标注标签的依赖实现了性能的新突破，但该领域仍在发展，处理数据稀疏性和噪声的挑战依然存在[6][7]。证据表明，自监督学习是工具箱中的强大工具，但并不能替代所有其他表征学习方法。

自监督学习在表示学习中究竟是如何起作用的？

SSL通过设计一个“前置任务”来运作，该任务利用数据自身的结构作为监督信号，而非依赖人工提供的标签。例如，针对图像的上下文自编码器（CAE）通过预测被遮蔽图像块的表征并重建这些块来学习表征，这迫使编码器学习有意义的特征[4]。在时间序列数据中，对比式自监督学习（TS-TCC）会生成同一时间序列的不同增强视图（如添加噪声或扭曲），并学习将同一序列的表征拉近，同时将不同序列的表征推远[5]。这些学到的表征随后可用于下游任务（如分类或推荐），且几乎不需要或完全不需要额外的标注数据。其关键洞察在于：自监督学习能从无标注数据中提取丰富且可泛化的特征，进而针对特定任务进行微调。

本文引用的文献

视频自监督学习综述

视频自监督学习可分为四类学习目标（前置任务、生成式、对比式、跨模态），在无需标注的情况下学习视频表征方面展现出潜力，但时间动态特性仍带来挑战。

2022 · Madeline C. Schiappa, Yogesh S. Rawat, Mubarak Shah · ACM Comput. Surv.

原文

自监督学习：生成式与对比式

计算机视觉、自然语言处理和图学习中的自监督学习方法可分为生成式、对比式以及生成-对比式（对抗式）三类。理论分析表明，没有任何单一方法能在所有任务中占据主导地位。

2021 · Xiao Liu, Fanjin Zhang, Zhenyu Hou, Li Mian, Zhaoyu Wang, Jing Zhang, Jie Tang · IEEE Trans. Knowl. Data Eng.

原文

基于基因表达数据的自监督表示学习。

在批量基因表达数据上，三种自监督学习方法（对比式、生成式、混合式）在表型预测中优于传统监督模型，同时减少了对标注数据的依赖，但每种方法各有其特定的优势与局限性。

2025 · Kevin Dradjat, Massinissa Hamidi, Pierre Bartet, Blaise Hanczar · Bioinformatics (Oxford, England)

原文

用于自监督表示学习的上下文自编码器

用于掩码图像建模的上下文自编码器（CAE）通过在编码表示空间中预测掩码补丁的表示，在下游任务（语义分割、目标检测、实例分割、分类）上实现了卓越的迁移性能。

2023 · Xiaokang Chen, Mingyu Ding, Xiaodi Wang, Ying Xin, Shentong Mo, Yunhao Wang, Shumin Han, Ping Luo, Gang Zeng, Jingdong Wang · Int. J. Comput. Vis.

原文

面向半监督时间序列分类的自监督对比表示学习

用于时间序列分类的TS-TCC对比自监督学习框架，能够从无标签数据中学习到表征，在线性评估下其表现与全监督训练相当，并且在少量标注样本下展现出高效率。

2023 · Emadeldeen Eldele, Mohamed Ragab, Zhenghua Chen, Min Wu, Chee-Keong Kwoh, Xiaoli Li, Cuntai Guan · IEEE Trans. Pattern Anal. Mach. Intell.

原文

自监督学习在推荐系统中的应用

基于SSL的推荐系统在降低对观测监督标签依赖的同时，实现了性能的新突破，但在处理各类推荐场景中的数据稀疏性和噪声问题时仍面临挑战。

2022 · Chao Huang, Lianghao Xia, Xiang Wang, Xiangnan He, Dawei Yin · CIKM

原文

自监督学习在推荐系统中的应用

SSL已成为推荐系统中一种前景广阔的新范式，近期研究已将其优势引入协同过滤、社交、序列及多行为推荐等任务中。

2022 · Chao Huang, Xiang Wang, Xiangnan He, Dawei Yin · SIGIR

原文