EchoYY 2020-04-10
学习资料:《统计学习方法第二版》第一章
机器学习的目标是从假设空间中找到一个泛化错误较低的“理想”模型,即想找到一个针对这类问题的最优模型。策略就是找到这个理想最优模型的准则!
常用的策略是损失函数和风险函数。损失函数是用来度量模型一次预测的好坏,风险函数是用来度量平均意义下模型预测的好坏。损失函数和风险函数越小,预测结果越精确。
常用的损失函数:0-1损失、平方损失函数(常用于回归问题)、交叉熵损失函数(常用于分类问题)、Hinge损失(常用于二分类问题)。
期望风险(模型的平均损失)、经验风险、结构风险。其中期望风险无法计算,一般采取下面两个策略:
经验风险最小化策略(最大似然估计)、结构风险最小化策略(最大后验估计)。
最大似然参数估计(MLE,频率派):由生成的数据结果反推参数\((P(X|\theta))\),假设参数均匀分布(“让数据自己说话”,当先验概率均匀分布时,即无信息先验);
最大后验概率参数估计(MAP,贝叶斯派):由生成数据结果反推参数,额外要加上先验概率,
最大后验概率是贝叶斯学派的思想,基础是贝叶斯公式:\(P(\theta|X)=\frac{P(X|\theta) P(\theta))}{P(X)})\)
最大似然估计和贝叶斯估计可以看作是频率学派和贝叶斯学派对需要估计 的参数 ?? 的不同解释. 当 ?? → ∞ 时,先验分布 ??(??; ??) 退化为均匀分布,称为无信息先验(Non-Informative Prior),最大后验估计退化为最大似然估计。
监督学习的应用 主要在三个方面:分类问题、回归问题、标注问题。