标签: 文献速递

1 篇文章

thumbnail
利用特征对齐压缩数据集(CAFE)
数据集压缩(dataset condensation),亦称数据集蒸馏(dataset distillation),旨在通过对数据集进行压缩以求减少模型训练的工作量或者说是提升学习过程的效率。比较直观的方法即是匹配真实数据集批次与合成数据集批次之间的梯度来实现上述的数据集压缩过程,但是这个方式由于其对于整体的忽视可能会导致主要梯度偏差较大的过拟合结果。本文将介绍一种2022年提出的利用特征对齐来压缩数据集的方法 ,该方法保留了真实特征分布(real-feature distribution)以及合成数据集的判别能力,从而使其在各种架构中都有强大的泛化能力。方法核心是一种在多尺度对齐两集特征的同时也考虑原数据集的真实样本分类的有效策略。此外,本方法以利用新颖的动态双层优化来自适应地调整参数以避免欠拟合与过拟合。本方法比起此前的方法在一些数据集上的表现更加优秀,比方说在SVHN数据集上性能提升了11%。