lgblove 2019-10-14
MLK,即Machine Learning Knowledge,本专栏在于对机器学习的重点知识做一次梳理,便于日后温习,内容主要来自于《百面机器学习》一书,结合自己的经验与思考做的一些总结与归纳。本次主要讲解的内容是机器学习里的非监督学习经典原理与算法,非监督,也就是没有target(标签)的算法模型。
Index
在机器学习中存在一种问题,那就是模型是没有target的,给机器输入大量的特征数据,期望机器可以学习出当中的共性或者结构又或者是关联,并不需要像监督学习那样输出某个预测值。
K-Mean聚类算法
K-Mean的基本思想就是通过迭代的方式寻找K个簇(Cluster)的一种划分方案,使得聚类结果对应的Cost Function最小,一般K-Mean的Cost Function为各个样本距离所属簇中心点的误差平方和,公式为:
其中Xi代表第i个样本,Ci是Xi所属的簇,μci代表簇对应的中心点,M是样本总数。
首先先来看一下K-Mean算法的具体步骤描述:
1)数据预处理,如归一化、异常值处理;
2)随机抽取K个簇(K由人工设定);
3)定义Cost Function:
4)不断迭代下面