介绍 本篇笔记参考李沐的《动手学深度学习》10.3章节的内容。 ...
...
1、监督学习算法 包括线性回归、逻辑回归、支持向量机(SVM)、决策树、随机森林等。 优点:在有明确标签的数据上效果好,适用于分类和回归任务。 缺点:需要大量标记数据,对未见过的数据可能过拟合 2、无监督学习算法 包括聚类算法(如K-means、DBSCAN)、主成分分析(PCA)、自编码器等。 优点:不需要标记数据,可以用于数据降维、特征提取和模…
数据集压缩(dataset condensation),亦称数据集蒸馏(dataset distillation),旨在通过对数据集进行压缩以求减少模型训练的工作量或者说是提升学习过程的效率。比较直观的方法即是匹配真实数据集批次与合成数据集批次之间的梯度来实现上述的数据集压缩过程,但是这个方式由于其对于整体的忽视可能会导致主要梯度偏差较大的过拟合结果。本文将介绍一种2022年提出的利用特征对齐来压缩数据集的方法
,该方法保留了真实特征分布(real-feature distribution)以及合成数据集的判别能力,从而使其在各种架构中都有强大的泛化能力。方法核心是一种在多尺度对齐两集特征的同时也考虑原数据集的真实样本分类的有效策略。此外,本方法以利用新颖的动态双层优化来自适应地调整参数以避免欠拟合与过拟合。本方法比起此前的方法在一些数据集上的表现更加优秀,比方说在SVHN数据集上性能提升了11%。
初六,谦谦君子,用涉大川,吉。——《周易·谦》
如果说化学关注核心问题是“何为变化?”,那么人工智能关注的核心问题是“何为智能?”。自然科学追求的是一种解构万物的还原论式的原理与内容,那么机器学习关注的则是如何让系统,尤计算机系统,具有知往事而晓来者能力的经验式的方法与手段。