3 线性回归
2023/10/11大约 2 分钟
3.1 线性回归模型
3.1.1 离散属性处理
有序关系:连续化为连续值
无序关系:有k个属性值,转换为k维向量
3.1.2 参数估计-最小二乘法
最小二乘法:最小化均方误差
3.2 二分类任务
3.2.1 对数几率回归
对数线性回归是广义线性模型的特例。
最理想的激活函数:单位阶跃函数
单位阶跃函数存在不连续的缺点,可替代为对数几率函数(单调可微,任意阶可导)。
3.2.2 线性判别分析LDA
思想:同类样例投影点尽可能近(协方差小),异类样例投影点尽可能远(类中心间的距离大)。
优化方法:最大化广义瑞利商。
多分类LDA将样本投影到N-1维空间,因此 LDA 也被视为一种监督降维技术。
3.3 多分类任务
3.3.1 一对一
N个类别两两配对,N(N-1)/2 个二分类任务,投票产生最终分类结果(得票多的类为最终类别)。
分类器多,存储开销和测试时间长。
只用两个类的样例,训练时间短。
3.3.2 一对其余
某一类为正例,其余反例,N个二分类任务,比较各分类器置信度(置信度最大的类别作为最终类别)。
分类器少,存储开销和测试时间短。
用到全部样例,训练时间长。
3.3.3 多对多
若干类为正类,若干类为反类。对N个类别作M次划分,一部分为正,另一部分为反,M个二类任务得到各个类别长度为M的编码,距离最小的类别为最终类别。
3.4 类别不平衡
类别不平衡:指不同类别的样例相差很大。
重要
解决方法:再缩放
- 欠采样:去除样例数很大的类别的样例。
- 过采样:增加一些样例数少的类别的样例。
- 阈值移动
3.5 实现案例
参考:深度学习:线性回归