3 线性回归

Yd Wen2023/10/11大约 2 分钟

3.1 线性回归模型

3.1.1 离散属性处理

有序关系：连续化为连续值
无序关系：有k个属性值，转换为k维向量

3.1.2 参数估计-最小二乘法

最小二乘法：最小化均方误差

3.2 二分类任务

3.2.1 对数几率回归

对数线性回归是广义线性模型的特例。
最理想的激活函数：单位阶跃函数
单位阶跃函数存在不连续的缺点，可替代为对数几率函数（单调可微，任意阶可导）。

3.2.2 线性判别分析LDA

思想：同类样例投影点尽可能近（协方差小），异类样例投影点尽可能远（类中心间的距离大）。
优化方法：最大化广义瑞利商。
多分类LDA将样本投影到N-1维空间，因此 LDA 也被视为一种监督降维技术。

3.3 多分类任务

3.3.1 一对一

N个类别两两配对，N(N-1)/2 个二分类任务，投票产生最终分类结果（得票多的类为最终类别）。
分类器多，存储开销和测试时间长。
只用两个类的样例，训练时间短。

3.3.2 一对其余

某一类为正例，其余反例，N个二分类任务，比较各分类器置信度（置信度最大的类别作为最终类别）。
分类器少，存储开销和测试时间短。
用到全部样例，训练时间长。

3.3.3 多对多

若干类为正类，若干类为反类。对N个类别作M次划分，一部分为正，另一部分为反，M个二类任务得到各个类别长度为M的编码，距离最小的类别为最终类别。

3.4 类别不平衡

类别不平衡：指不同类别的样例相差很大。

重要

解决方法：再缩放

欠采样：去除样例数很大的类别的样例。
过采样：增加一些样例数少的类别的样例。
阈值移动

3.5 实现案例

参考：深度学习：线性回归