南京理工大学考研,南京理工大学考研分数线
训练一个好的神经网络通常需要大量标记数据,而由于获得标记数据需要承受高昂的货币成本以及巨大的人力资源需求,因此大大增加了神经网络训练的难度。为了解决此类问题,人们往往采用半监督学习 (Semi-Supervised Learning, SSL),它可以有效地利用稀缺的标记数据和丰富的未标记数据来训练一个准确的分类器。该工作由京东探索研究院、南京理工大学、香港浸会大学合作完成,目前已被NeurIPS 2021接收。
文章: https://openreview.net/forum?id=zmVumB1Flg
一、研究背景
图1. 问题描述:(a)表示封闭集合问题。(b) 和 © 描述了类别分布不匹配问题,其中 (b) 描述了子集不匹配;© 描述了交叉不匹配。(d) 表示特征分布不匹配。图中红色虚线框表示特征分布不匹配,绿色实线框表示类别分布不匹配。
经典的半监督算法依赖于封闭集合假设,即标记数据和未标记数据来自于相同的类分布和相同的特征分布。具体来说,标记数据的所包含的类别等于未标记数据的所包含的类别,而且标记数据特征的边缘分布与未标记数据特征的边缘分布相同,如图1中(a)所示。然而在开放世界中,手头的数据集可能会严重的违反上述假设,并同时具有类别分布不匹配和特征分布不匹配,如图1(b),(c),和(d)所示。在这种开放集的情况下,传统的基于封闭集合的半监督学习会遭受严重的性能下降,如图2,3所示。
图2. 类别分布差异对半监督学习效果的影响[1]
图3. 特征分布差异对半监督学习效果的影响[2]
二、现有局限与研究动机
现有的方法需要知道标记数据和未标记数据的类别之间的关系,这极大地限制了它们的实际应用。当类别关系未知时,来自标记数据类别和未标记数据类别的潜在独有数据都可能严重误导学习过程。此外,现有工作仅考虑类分布不匹配,完全忽略了特征分布不匹配问题。所以,有必要设计一种全局的方法来解决类别分布不匹配的不同场景,同时处理特征分布不匹配。
本文力求解决现实情形的分布不匹配问题:
1.类别分布不匹配,该问题又包含子集不匹配和交叉不匹配;
2.特征分布不匹配。
为全局的解决上述两种问题,本论文提出了一种基于共享类别检测及特征适应(Class-shAring data detection and Feature Adaptation,CAFA)的半监督框架,能够使得传统半监督方法很好的适配于各种现实情形。
三、问题描述
本文设定中,有一个标记数据集 包含 个实例数据 用 标记,以及一个未标记的数据集 由 个未标记数据 组成,其中 远小于 。两个数据集 和 分别来自两个不同的特征分布 和 。我们使用 表示标记数据的已知类集,使用 表示未标记数据的未知类集。特别地,我们使用 表示 和 共享的类别集合,并使用 和 分别表示标记数据和未标记数据私有的类集。 和 中带标签的标记数据的特征分布表示为 和 ,以及属于 和 的未标记数据的特征分布分别表示为 和 。
我们的目标是有效地从标记数据集 和未标记数据集 中识别出类别共享数据,然后消除识别出的标记和未标记数据之间的不匹配特征分布以帮助训练一个更准确半监督模型用于对目标类别集合 进行分类。
四、总体框架
图4. CAFA框架
如图4所示,CAFA框架包含一个特征提取器 、一个分类器 、一个对抗性判别器 和一个非对抗性判别器 。给定输入实例 ,我们使用 来计算其特征表示 )。然后我们使用 通过分类器 输出标签预测 。非对抗性判别器 产生领域相似度分数 ,它量化了一个实例与一个分布的相似程度。对抗性判别器 旨在对抗性地适应共享类别集合 中标记数据和未标记数据的特征分布。
本方法的大致框架可以表示为如下:
其中 、 、 分别为 、 、 的参数。在公式1中,第一项被称为有监督保真项,它涉及标准交叉熵损失 。第二项被称为特征适应项,它引入了对来自 和 类别共享数据的对抗性学习损失 。这里的类别共享数据是通过两个分数 和 来检测的,该评分过程将在后续进行详细说明。通过这样的特征适应过程,我们的 CAFA 方法可以最大限度地利用未标记的数据从而有益于半监督学习。第三项是共享类别数据探索项,它使用半监督损失 进行训练,以充分利用类共享数据。通过以上描述,可见类别共享数据检测,特征适应,以及半监督训练为本方法的主要模块,接下来将对它们进行详细介绍。
1类别共享检测
类共享数据检测旨在正确区分属于 的训练数据和 中的训练数据。为了实现这个目标,我们希望分别为标记数据和未标记数据建模两个类共享分数 和 ,它们应该满足以下不等式[3]:
为了能够更好的检测,上述不等式应该尽量满足较大的间隔。在这里,我们使用域相似性 和标签预测偏移 来建模 和 。
图 5. 域相似性训练
通过最小化交叉熵损失将来自 的数据预测为 0 ,同时并将来自 的数据预测为 1。输出值 便可以认为是输入 的域相似度。同时我们采用MixUp [4]方法来加强 和 之间的关系从而产生具有判别性的域相似性。通过MixUp训练能够使类共享数据的域相似度比属于 和 中的私有数据更接近。从而能够得到:
仅利用域相似性不足以检测类共享数据。因此,我们引入标签预测偏移来提高检测性能。
图6. 标签预测偏移
给定输入实例 ,然后对 加上对抗扰动,通过计算网络预测的偏差即可得到标签预测偏移。同时,计算出的标签预测偏移将满足以下不等式[5]:
为了整合上述 和 ,我们可以通过如下公式来计算所需对标记样本和未标记样本的评分 和 :
计算之前, 和 都被归一化到区间 [0,1] 。通过公式9,我们的类共享分数可以完美地满足公式2,因此它们可以有效地检测 和 的类别共享数据。
2 特征适应
在检测到上述的类共享数据后,现在我们应该消除 和 之间的特征分布不匹配问题,使得可以正确提取未标记数据的价值以帮助后续半监督学习。为此,我们将未标注数据作为源域(i.e., 1),将标注数据作为目标域(i.e., 0),利用对抗域自适应来实现这个目标。具体来说,我们将类共享分数 和 。应用于对抗性学习损失 ,并训练对抗性判别器 来区分标记数据和未标记数据。同时,特征提取器 被训练来欺骗 。上述对抗过程可以表述为以下最小-最大优化问题:
通过两个类共享分数 和 进行加权之后,我们可以成功缓解 和 之间的特征分布不匹配问题,并不受无关分布 和 的影响。
3 半监督训练
通过前面提到的类共享数据检测和特征适应,我们可以通过减轻类分布不匹配和特征分布不匹配的负面影响来充分利用开放数据集。然后,我们应该着眼于有效探索类共享的未标记数据,同时削弱私有数据的负面影响。特别是标记数据集中的私有数据可能会将未标记数据误导到 中,而 中的未标记私有数据可能会被错误地纳入网络训练,导致性能进一步下降。为了解决这个问题,我们提出以下半监督训练策略:
其中 用于削弱网络对未标记私有数据的学习, 表示每个未标记数据校准后的伪学习目标 ,以减轻由标记私有数据引入的学习偏差。为了校准原始有偏差的伪目标 ,我们提出使用加权 softmax 函数。具体来说,我们计算每个类别 的 的平均权重为:
根据公式2,如果 属于 ,计算出的权重 会很大,如果 属于 ,计算出的 便会很小。然后我们可以通过如下公式来校准伪目标 :
其中符号 表示输入向量的第 个概率值。通过这样的过程, 中属于 的条目将被抑制,而属于 的概率值将被抑制被增强,这成功地减轻了来自原始目标 的偏差。
因此,我们的通用框架可以通过将公式6和公式7代入公式1中的特征适应项和类别共享数据探索项来进行实例化。我们的 CAFA 框架可以有效地解决开放集问题的不同场景,且无需任何类别关系的先验知识,并取得令人鼓舞的表现。
五、实验
为了验证提出方法的有效性,我们分别在存在类别分布不一致、特征分布不一致以及前两种情况混合的数据集上测试了效果:
可见我们提出的方法能够很好的解决开放半监督学习的不同情况,并且在大多任务上都超过了对比的方法。
同时,我们还进行了消融实验,对方法的各个模块进行拆解,对比效果如下:
可见我们的方法每一个模块都至关重要,尤其是特征拟合模块对半监督学习的影响最大。
六、总结
为了解决传统半监督算法无法很好的适用于现实情形的问题,本文力求解决现实情形的分布不匹配问题:
1.类别分布不匹配,该问题又包含子集不匹配和交叉不匹配;
2.特征分布不匹配。
同时,现有方法无法同时解决类别分布不匹配问题的两种子情形,从而进一步限制了它们的实际用途。为全局的解决上述两种问题,我们提出了一种基于共享类别检测及特征分布适应(Class-shAring data detection and Feature Adaptation, CAFA)的半监督框架,能够使得传统半监督方法很好的适配于各种现实情形,详实的实验证明了我们方法在解决开放集半监督问题的优越性。
参考文献
[1] Z. Huang, C. Xue, B. Han, et al. Universal Semi-supervised Learning[C]. NeurIPS. 2021.
[2] Avital Oliver, Augustus Odena, Colin A Raffel, Ekin Dogus Cubuk, and Ian Goodfellow. Realistic evaluation of deep semi-supervised learning algorithms. In NeurIPS, pages 3235–3246, 2018.
[3] Qin Wang, Wen Li, and Luc Van Gool. Semi-supervised learning by augmented distribution alignment. In ICCV, pages 1466–1475, 2019.
[4] Kaichao You, Mingsheng Long, Zhangjie Cao, Jianmin Wang, and Michael I. Jordan. Universal domain adaptation. In CVPR, 2020.
[5] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. mixup: Beyond empirical risk minimization. In ICLR, 2017.
[6] Shiyu Liang, Yixuan Li, and Rayadurgam Srikant. Enhancing the reliability of out-ofdistribution image detection in neural networks. In ICLR, 2018.
本文来自:公众号【京东探索研究院】 作者:京东探索研究院
Illustrastion by By Pixel True from Iconscout
-The End-
本周上新!
扫码观看!
关于我“门”
将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
⤵一键送你进入TechBeat快乐星球
南京理工大学考研(南京理工大学考研分数线)