AsiaLee 2017-10-30
机器之心整理
参与:蒋思源
机器之心向大家介绍一门统计机器学习课程,该课程的授课老师是 CMU 的 Ryan Tibshirani 和 Larry Wasserman,他们从回归模型到概率图模型向我们展示了统计机器学习的全面概念与推导。本课程适合有一定概率论和机器学习基础的读者进一步理解统计机器学习的一般理论,且所有的课程视频、笔记等资料都可在课程页面获取。
该《统计机器学习》课程是 CMU 中进阶机器学习的研二课程,所以想学习的读者可能需要有一些机器学习和中级统计学相关的背景知识。术语「统计」反映了该课程对统计学理论和方法论的重视。本课程将方法和理论基础相结合,且各项定理都从直观实践经验开始论述,所以有助于我们使用适当方法和工具来理解与实现这些理论。该课程包含了对机器学习研究与学习十分重要的统计理论基础,包括非参数理论、一致性、极小极大估计和集中性度量等。
该课程地址:http://www.stat.cmu.edu/~ryantibs/statml/
课程背景知识要求:
依概收敛与依分布收敛
中心极限定理与大数定律
最大似然估计与 Fisher 信息
贝叶斯推断
回归
正则化、偏差-方差权衡
贝叶斯分类器、线性分类器和支持向量机
行列式、特征向量与特征值
对于很多入门级读者来说,该课程会稍微有一些困难。因为这门课程的主要内容更注重于机器学习中的统计理论与方法,而且课程要求的背景知识正好可以通过李航的《统计学习方法》进行学习,所以小编认为我们可以先完成李航的统计学习方法,从概率与统计的方向理解机器学习的本质属性,然后再进一步学习该课程。
基于李航对统计机器学习的论述,我们知道统计机器学习(Statistical Machine Learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。它有如下一些特点:
统计机器学习以计算机及网络为平台,是建立在计算机及网络之上的
统计机器学习以数据为研究对象,是数据驱动的学科
统计机器学习的目的是对数据进行预测与分析
统计机器学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析
统计机器学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
以下在有统计机器学习概念的基础上介绍该课程内容:
该课程的主题为:线性回归、线性分类、非参数回归、非参数分类、再生核希尔伯特空间(Reproducing kernel Hilbert spaces)、密度估计、聚类、高维检验、集中性度量(Concentration of measure)、极小极大理论(Minimax theory)、稀疏性和 lasso,还有概率图模型等。
并且每一个主题都有相应的学时、笔记、视频等材料。例如在图模型章节中,Ryan Tibshirani 和 Larry Wasserman 详细解释了各种无向图模型,并且有十分详尽的课程资料。如下是该章节的笔记资料目录:
该资料从标准的图模型定义,即表征特征(变量)之间关系的一种方法,其有两个主要的分类,即有向图模型和无向图模型。然后其就从无向图的边缘相关性图模型、部分相关性图模型和条件独立性图模型向我们展开整个内容。该资料不仅有详尽的公式推导,同时还有各种利于理解的直观概念图,下面展示了几个直观理解的图表:
图 1:蛋白质网络(Protein network),一种无向图模型。
图 2:表征一个隐马尔可夫模型的有向图。灰色的结点是我们能观察到的,而白色的结点表征的是隐马尔可夫链中的状态,它是不能观察到的。下图将有向边替换为无向边并不会改变独立性关系。
当然除了资料以外,更重要的就是视频,这些课程都提供了相应的 YouTube 视频,我们能直接在该课程页面选择相应的视频资源。除了视频外,该页面还提供了很多课程作业的资料。
最后整个课程的主题与资源展示如下: