基本形式
线性模型的基本形式
线性回归
估计方法是最小二乘,即最小化均方误差(MSE)
令 $\hat{\pmb w} = ({\pmb w}; b)$,则有闭式解
引入正则
- Lasso
- Ridge
对数几率回归
模型为
Logit 回归即对数几率回归
使用 MLE 估计,对数似然函数为
线性判别分析
线性判别分析(Linear Discriminant Analysis, LDA)是将样本投影到直线(或低维空间)上,使得组内距离尽可能小、组间距离尽可能大。
线性判别分析也被用于监督降维。
多分类学习
二分类模型推广至多分类的方案:
- One vs. One
- One vs. Many
- Many vs. Many
类别不平衡问题
再缩放(Rescaling)
原本, $\frac{y}{1 - y} > 1$ 时,预测为正例
现在,$\frac{y}{1 - y} > \frac{m^+}{m^-}$ 时,预测为正例;其中 ${m^+}$ 与 ${m^-}$ 分别为正例与负例的数目。
重采样
- 欠采样/下采样:训练多个模型并集成
- 过采样/上采样:对数目少的那一类样本进行插值
- 阈值移动:将再缩放的公式嵌入决策过程