0%

西瓜书笔记:线性模型(第 3 章)

线性回归,二值选择等。

基本形式

线性模型的基本形式

线性回归

估计方法是最小二乘,即最小化均方误差(MSE)

令 $\hat{\pmb w} = ({\pmb w}; b)$,则有闭式解

引入正则

  • Lasso
  • Ridge

对数几率回归

模型为

Logit 回归即对数几率回归

使用 MLE 估计,对数似然函数为

线性判别分析

线性判别分析(Linear Discriminant Analysis, LDA)是将样本投影到直线(或低维空间)上,使得组内距离尽可能小、组间距离尽可能大。
线性判别分析也被用于监督降维。

多分类学习

二分类模型推广至多分类的方案:

  • One vs. One
  • One vs. Many
  • Many vs. Many

类别不平衡问题

再缩放(Rescaling)

原本, $\frac{y}{1 - y} > 1$ 时,预测为正例
现在,$\frac{y}{1 - y} > \frac{m^+}{m^-}$ 时,预测为正例;其中 ${m^+}$ 与 ${m^-}$ 分别为正例与负例的数目。

重采样

  • 欠采样/下采样:训练多个模型并集成
  • 过采样/上采样:对数目少的那一类样本进行插值
  • 阈值移动:将再缩放的公式嵌入决策过程