该项目提出了一种潜变量统计模型,用于自监督学习(SSL),将SSL损失函数与统计生成过程联系起来。该模型假设数据由潜在高斯变量线性变换并被噪声破坏生成,正样本为原始数据的噪声版本。最大似然估计可根据数据增强的信息量简化为主成分分析(PCA)或一个简单的非对比损失。数值模拟验证了理论发现,表明在正交噪声设置中SSL优于PCA,而在各向同性噪声设置中表现相似。