1 机器学习简介

Yd Wen2023/9/24大约 1 分钟

深度学习是机器学习的一个分支，是一种以人工神经网络为架构，对数据进行特征学习的算法。

1.1 基本术语

训练集、测试集、特征（属性）、标记。

机器学习的任务分类

按预测目标划分：分类（离散）、回归（连续）、聚类（无标记信息）
按标记信息划分：监督学习（有标记，分类、回归）、无监督（聚类）、半监督（两者结合）

泛化能力：指模型适用于新样本的能力

1.2 假设空间

所有假设（hypothesis）组成的空间成为假设空间。

假设空间大小：假设有属性 A、B、C，取值分别有三个，则假设空间大小为 4 x 4 x 4 + 1。

提示

每个属性可以取属性值和通配符 * 。
也有可能概念不存在，目标假设为空集。
学习过程就是在假设空间中搜索到与训练集匹配（fit）的目标假设的过程。
版本空间：由于训练集样本有限，可能存在多个目标假设与训练集匹配，多个目标假设组成版本空间。

1.3 归纳偏好

假设偏好：学习过程中对某种类型的假设的偏好。
确立正确偏好：奥卡姆剃刀（多个假设与观察一致，则选最简单的那个）
NFL（没有免费午餐，No Free Lunch）定理：算法 a 在某些问题上比算法 b 好，必然存在另一些问题 b 比 a 好。

注

总误差与学习算法无关。任何学习算法的期望性能相同。