CYJ0go 2020-06-13
一 对数回归
全称为对数几率回归,其它文献也称为 线性回归。
虽然称为回归,但实际是分类算法。
本质是广义线性模型。通过sigmoid函数(联系函数),将回归模型的预测值与分类的真实标记联系起来。
只适用于二分类?
多分类情况 采用 OvO或者OvR策略解决。
类别不平衡问题 采用 再缩放 (rescaling) 策略解决
欠采样 -- EasyEnsemble
过采样 -- SMOTE
二 线性判别分析 LDA
可以适用于多分类。
三 决策树
划分指标
信息增益 -- ID3
增益率 -- C4.5
gini index 基尼指数 -- CART决策树 classification and regression tree的缩写
适用于离散值,也适用于连续值。连续值的策略是取 n-1 个划分点。
也可以处理缺失值,牛逼。起码C4.5是可以的。
过拟合处理策略
剪枝
预剪枝
后剪枝
扩展:多变量决策树
本质是对变量进行线性组合
算法:OC1