在机器学习领域中,传统的学习方法有两种:监督学习和无监督学习。半监督学习(Semi-supervised Learning)是近年来模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价,提高学习机器性能具有非常重大的实际意义。
聚类假设
聚类假设是指样本数据间的距离相互比较近时,则他们拥有相同的类别。根据该假设,
分类边界就必须尽可能地通过数据较为稀疏的地方,以能够避免把密集的样本数据点分到分类边界的两侧。在这一假设的前提下,学习算法就可以利用
大量未标记的样本数据来分析样本空间中样本数据分布情况,从而指导学习算法对分类边界进行调整,使其尽量通过样本数据布局比较稀疏的区域。例如,Joachims提出的转导支持向量机算法,在训练过程中,算法不断修改分类超平面并交换超平面两侧某些未标记的样本数据的标记,使得分类边界在所有训练数据上最大化间隔,从而能够获得一个通过数据相对稀疏的区域,又尽可能正确划分所有有标记的样本数据的分类超平面。
流形假设
流形假设的主要思想是
同一个局部邻域内的样本数据具有相似的性质,因此其标记也应该是相似。这一假设体现了
决策函数的局部平滑性。和聚类假设的主要不同是,
聚类假设主要关注的是整体特性,流形假设主要考虑的是模型的局部特性。在该假设下,未标记的样本数据就能够让数据空间变得更加密集,从而有利于更加标准地分析局部区域的特征,也使得决策函数能够比较完满地进行数据拟合。流形假设有时候也可以直接应用于半监督学习算法中。例如,Zhu 等人利用高斯随机场和谐波函数进行半监督学习,首先利用训练样本数据建立一个图,图中每个结点就是代表一个样本,然后根据流形假设定义的决策函数的求得最优值,
获得未标记样本数据的最优标记;Zhou 等人利用样本数据间的相似性建立图,然后让样本数据的标记信息不断通过图中的边的邻近样本传播,直到图模型达到全局稳定状态为止。
从本质上说,这两类假设是一致的,只是相互关注的重点不同。其中流形假设更具有普遍性
半监督学习的主要算法
基于概率的算法;
在现有监督算法基础上作修改的方法;
直接依赖于聚类假设的方法;
基于多试图的方法;
基于图的方法
不足
半监督学习分类算法从提出到现在时间比较短,还有许多方面没有更深入的研究
半监督学习分类算法的现实价值
半监督学习从诞生以来,主要用于处理
人工合成数据、只在实验室试用,还没办法在某个现实领域得到应用,也就是说,其现实意义没体现出来;因此,半监督学习的实际应用价值问题值得更多的研究。
新假设的提出
文中前面叙述到的各种半监督分类算法的假设,提出新的模型假设可能会改进半监督分类算法。所以对半监督学习分类算法的模型假设的研究将是十分有价值的。
半监督学习的抗干扰性比较弱
无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据,而在实际生活中用到的数据却大部分不是无干扰的,通常都比较难以得到纯样本数据。上面谈论的三个基本假设显然是有效的,不过过于简约,这些假设没能把
噪声干扰下未标记样本数据分布的不确定性以及它的复杂性充分的考虑全。