大部分基础概念知识已经在Machine Learning|Andrew Ng|Coursera 吴恩达机器学习笔记这篇博客中罗列,因此本文仅对感觉重要或不曾了解的知识点做摘记
- 对于一个学习算法a,若它在某问题上比学习算法b好,则必然存在另一些问题,在那里b比a好.即"没有免费的午餐"定理(No Free LunchTheorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题
- m次n折交叉验证实际上进行了m*n次训练和测试
- 可以用F1度量的一般形式Fβ来表达对查准率/查全率的偏好:
- 偏差度量了学习算法的期望预测与真实结果的偏离程度,即学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,即数据扰动造成的影响.噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本身的难度.
- 多分类学习的分类器一般有以下三种策略:
- 一对一(OvO),N个类别产生N * (N - 1) / 2种分类器
- 一对多(OvR或称OvA),N个类别产生N - 1种分类器
- 多对多(MvM),如纠错输出码技术
- 过采样法,增加正例使正负例数目接近,如SMOTE
- 欠采样法,减少负例使正负例数目接近,如EasyEnsemble
- 再缩放法
- 信息熵:
- 信息增益:
- C4.5决策树选择增益率大的属性来划分,因为信息增益准则对可取值数目较多的属性有所偏好.但增益率会偏好于可取值数目较少的属性,因此C4.5算法先找出信息增益高于平均水平的属性,再从中选择增益率最高的.另外,C4.5决策树采用二分法对连续值进行处理,使用时将划分阈值t作为参数,选择使信息增益最大的t划分属性.采用样本权值对缺失值进行处理,含有缺失值的样本同时划入所有结点中,但相应调整权重.
- 增益率:
- a的固有值:
- CART决策树则选择基尼指数最小的属性来划分,基尼系数反映了从数据集中随机抽取的两个样本类别不一致的概率,注意CART是二叉树,其余两种都为多叉树.
- 基尼值衡量的纯度:
- 基尼指数:
- 剪枝是决策树对付过拟合的主要手段,分为预剪枝和后剪枝.
- 预剪枝对每个结点在划分前先进行估计,若该结点的划分不能带来决策树泛化性能提升,则停止划分.预剪枝基于"贪心"本质,所以有欠拟合的风险.
- 后剪枝是先生成一棵完整的决策树,然后自底向上对非叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将子树替换为叶结点.缺点是时间开销大.
- 决策树所形成的分类边界是轴平行的,多变量决策树(斜决策树)的每一个非叶结点都是一个线性分类器,因此可以产生斜的划分边界.