K-MEANS算法总结

编程爱好者联盟 2016-12-13

K-MEANS算法

摘要：在数据挖掘中，K-Means算法是一种 cluster analysis 的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。

在数据挖掘中，K-Means算法是一种cluster analysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。

问题

K-Means算法主要解决的问题如下图所示。我们可以看到，在图的左边有一些点，我们用肉眼可以看出来有四个点群，但是我们怎么通过计算机程序找出这几个点群来呢？于是就出现了我们的K-Means算法（Wikipedia链接）

K-Means要解决的问题

算法概要

这个算法其实很简单，如下图所示：

从上图中，我们可以看到，A，B，C，D，E是五个在图中点。而灰色的点是我们的种子点，也就是我们用来找点群的点。有两个种子点，所以K=2。

然后，K-Means的算法如下：

随机在图中取K（这里K=2）个种子点。
然后对图中的所有点求到这K个种子点的距离，假如点Pi离种子点Si最近，那么Pi属于Si点群。（上图中，我们可以看到A，B属于上面的种子点，C，D，E属于下面中部的种子点）
接下来，我们要移动种子点到属于他的“点群”的中心。（见图上的第三步）
然后重复第2）和第3）步，直到，种子点没有移动（我们可以看到图中的第四步上面的种子点聚合了A，B，C，下面的种子点聚合了D，E）。

这个算法很简单，但是有些细节我要提一下，求距离的公式我不说了，大家有初中毕业水平的人都应该知道怎么算的。我重点想说一下“求点群中心的算法”。

求点群中心的算法

一般来说，求点群中心点的算法你可以很简的使用各个点的X/Y坐标的平均值。不过，我这里想告诉大家另三个求中心点的的公式：

1）Minkowski Distance公式——λ可以随意取值，可以是负数，也可以是正数，或是无穷大。

2）Euclidean Distance公式——也就是第一个公式λ=2的情况

3）CityBlock Distance公式——也就是第一个公式λ=1的情况

这三个公式的求中心点有一些不一样的地方，我们看下图（对于第一个λ在0-1之间）。

: 编程爱好者联盟

相关推荐

k-means聚类算法原理简析

K-means算法是最普及的聚类算法，也是一个比较简单的聚类算法。算法接受一个未标记的数据集，然后将数据聚类成不同的组，同时，k-means算法也是一种无监督学习。那么用k-means算法来解决这个问题会是怎样的呢？完全没有人为的让他进行分类的学习，也没有

horizonheart 0喜欢 / 0评论 2020-07-05

k-means算法求解anchors

文字内容以后再补充： import numpy as np# 定义Box类，描述bounding box的坐标class Box(): def __init__(self, x, y, w, h): self.x = x

lixiaotao 0喜欢 / 0评论 2020-03-02

数据建模（）-K-means聚类算法

K-Means算法是典型基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用作为相似性的评价指标，即认为2个对象的距离越近，其相似度越大。对连续属性，要先对各属性值进行零-均值规范，再进行距离计算。K-Means聚类算法中，一般

路漫 0喜欢 / 0评论 2020-01-23

机器学习——Mini Batch K-Means算法

　　Mini Batch K-Means算法是K-Means算法的一种优化变种，采用小规模的数据子集减少计算时间，同时试图优化目标函数; Mini Batch K-Means算法可以减少K- Means算法的收敛时间，而且产生的结果效果只是略差于标准K-M

jiayuqicz 0喜欢 / 0评论 2020-01-01

【机器学习】k-means算法原理自实现

from sklearn.cluster import KMeans # 导入k-means. # 获取数据的行数。# # 随机选择一行所有的数据作为一个中心。# 先初始化一个全为0 的聚类中心。# 设计列表来退出循环。# 设计一个计数器来给聚类

lixiaotao 0喜欢 / 0评论 2019-12-29

【机器学习】机器学习入门08 - 聚类与聚类算法K-Means

时间过得很快，这篇文章已经是机器学习入门系列的最后一篇了。短短八周的时间里，虽然对机器学习并没有太多应用和熟悉的机会，但对于机器学习一些基本概念已经差不多有了一个提纲挈领的了解，如分类和回归，损失函数，以及一些简单的算法——kNN算法、决策树算法等。那么，

清溪算法 0喜欢 / 0评论 2019-12-23

数据挖掘--K-means

K-Means方法是MacQueen1967年提出的。给定一个数据集合X和一个整数K（?n），K-Means方法是将X分成K个聚类并使得在每个聚类中所有值与该聚类中心距离的总和最小。[1] 给K个cluster选择最初的中心点，称为K个Means。[3]

muyurenzheng 0喜欢 / 0评论 2019-12-02

算法 - k-means算法

所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，这个方法要保证同一类的数据有相似的特征，如下图所示：

蜗牛慢爬的李成广 0喜欢 / 0评论 2019-11-09

k-means和iosdata聚类算法在生活案例中的运用

所以，本篇博客主要是对生活中的案例，运用k-means算法和isodata聚类算法进行数据评价和分析。本文是对“中国男足近几年在亚洲处于几流水平？”的问题进行分析。按照样本之间的距离大小，将样本集划分为K个簇。

lixiaotao 0喜欢 / 0评论 2019-10-28

Clustering：K-means Extention

在上篇K-Means介绍中，学习了K-means算法的优点和缺点。本文通过扩展K-Means算法来进一步学习Clustering的相关算法。在K-Means算法中，使用的距离概念是欧式距离，这个必须在欧式空间中才有效。那么再使用K-Means算法就不再合适

KDF000 0喜欢 / 0评论 2013-03-10

Cluster：K-means Algorithm

K-means算法算是Clustering算法中最为简单的算法了，我们从最简单的算法开始学习。K-means的算法思路很简单，根据算法名字所描述的那样，K是系统的输入参数，表明我们想分簇的数量；首先随机选择K个初始点作为中心点，再将每个数据点赋给离其最近的

KDF000 0喜欢 / 0评论 2013-03-06

聚类分析（二） K-MEANS

算法属于划分方法中的一种。是利用距离来量化相似度的，所以我们这里可以理解为是“将它们指定到离最近最近距离的质心所属类簇”）。然后重新计算质心位置。以上过程不断反复，直到准则函数收敛为止。通常采用平方误差准则，定义如下：。代表的意思是所有类簇中各对象到其所属

Oudasheng 0喜欢 / 0评论 2012-12-27

opencv python K-Means聚类

它们是type又有两种选择:. cv.TERM_CRITERIA_EPS+ cv.TERM_CRITERIA_MAX_ITER - 当满足上述任何条件时停止迭代。max_iter - 指定最大迭代次数的整数epsilon - 要求的准确性attempts：

zhongranxu 0喜欢 / 0评论 2019-06-28

R语言聚类分析：k-means和层次聚类

尽管我个人非常不喜欢人们被划分圈子，因为这样就有了歧视、偏见、排挤和矛盾，但“物以类聚，人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。前面所提到的机器学习算法主要都是分类和回归，这两类的应用场景都很清晰，就是对分类型变量或者数值型变量的预

JueryLee 0喜欢 / 0评论 2019-06-28

K-Means算法的10个有趣用例

K-means算法具有悠久的历史，并且也是最常用的聚类算法之一。K-means算法实施起来非常简单，因此，它非常适用于机器学习新手爱好者。首先我们来回顾K-Means算法的起源，然后介绍其较为典型的应用场景。1967年，James MacQueen在他的论

WindChaser 0喜欢 / 0评论 2019-06-27

k均值聚类(K-means)

分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是，计算机没有这种直观感受能力，我们必须对相异度在数学上进行定量定义。也就是说相异度是两个元素对实数域的一个映射，所映射的实数定量表示两个元素的相异度

小白的成长 0喜欢 / 0评论 2010-12-20

k均值聚类算法（二）（k-means++）

前言这次的文章，是笔者写的k均值算法的第二篇。在这篇文章里，笔者要给自己备忘一下k-means++算法的学习。因此，笔者今天备忘的k-means++算法，就是针对第二个问题而提出的一种算法。因为k-means++要解决k-means受初始化值影响大这个问题

WindChaser 0喜欢 / 0评论 2019-06-26

K-means在Python中的实现

K-means算法简介K-means是机器学习中一个比较常用的算法，属于无监督学习算法，其常被用于数据的聚类，只需为它指定簇的数量即可自动将数据聚合到多类中，相同簇中的数据相似度较高，不同簇中数据相似度较低。适当选择c个类的初始中心；利用均值等方法更新该类

WindChaser 0喜欢 / 0评论 2019-06-21

如何运用k-means聚类进行图像识别、色彩压缩

对任何人来说，图像应用过滤器都不是一个新概念。我们拍了一张照片，做了一些修改，现在看起来更酷了。但是人工智能从何而来呢?让我们尝试使用Python中的k均值聚类进行无监督机器学习。我还尝试用自动编码器进行图像压缩，取得了不同程度的成功。然而，这一次，我的目

ivabrother 0喜欢 / 0评论 2019-06-04

一个完整的K-means聚类算法指南！

假设您想根据内容和主题对数百（或数千）个文档进行分类，或者您希望出于某种原因将不同的图像组合在一起。目标是获得尽可能相似的同一组中的数据点，并使不同组中的数据点尽可能不相似。K-means非常适合探索性分析，非常适合了解您的数据并提供几乎所有数据类型的见解

风吹夏天 0喜欢 / 0评论 2019-05-21

K-Means算法的10个有趣用例

K-means算法具有悠久的历史，并且也是最常用的聚类算法之一。K-means算法实施起来非常简单，因此，它非常适用于机器学习新手爱好者。首先我们来回顾K-Means算法的起源，然后介绍其较为典型的应用场景。1967年，James MacQueen在他的论

SuMFLOWERS 0喜欢 / 0评论 2018-04-01

机器学习初学者的K-Means聚类算法概述

任何在google上搜索“数据科学”的人都可能看到过机器学习中的k-means聚类算法。K-means是一种简单但功能强大的分类工具，它根据相似的特征将数据分配到组中。例如，它可以用于根据电影标题和上映日期预测电影类型，或者根据客户的购买模式分类客户。现在

秋田小鼠 0喜欢 / 0评论 2018-10-19

从头开始实现机器学习K-Means聚类

本文的目的不是详细解释机器学习中的K-Means聚类，是在不使用Scikit的情况下提供实现细节。K-Means是用于聚类的流行且简单的机器学习中无监督学习算法之一。K-Means中的超参数'K'指的是clusters的数量。K-Means是一种基于质心的

kunlong00 0喜欢 / 0评论 2018-09-15

机器学习：Python实现K-MEANS聚集

k-means聚类是一种矢量量化方法，最初来源于信号处理，在数据挖掘中被广泛应用于聚类分析。k-means聚类的目的是将n个观测值划分为k个观测值，每个观测值都属于最接近均值的聚类，作为聚类的原型。这导致将数据空间划分为Voronoi单元。该算法与k最近邻

bamboocqh 0喜欢 / 0评论 2018-09-02

基于机器学习聚类算法K-means完成经典的压缩彩色图像的操作

聚类算法在机器学习十大算法中，聚类算法是一种重要的无监督的学习算法，它可以将数据集中的样本点归结为一系列特定的组合。训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律，最常用的就是“聚类”算法。聚类算法的应用电子商务平台

yxqfxd 0喜欢 / 0评论 2018-11-15

Python机器学习第一印象｜什么是K-means

本节将要介绍一种被广泛使用的直接聚类算法k-means。换而言之，就是将相似接近的对象分到同一聚簇，将不相似的对象分到不同聚簇。因此聚类归属于无监督学习算法，我们并不知道数据对象的标记，只知道它的特征如何。K是指定K-means算法聚类个数的输入参数，一般

MasterCui 0喜欢 / 0评论 2018-05-25

Python实现k-means算法

编号,密度,含糖率1,0.697,0.462,0.774,0.3763,0.634,0.2644,0.608,0.3185,0.556,0.2156,0.403,0.2377,0.481,0.1498,0.437,0.2119,0.666,0.09110,

campwin 0喜欢 / 0评论 2018-02-23

Python机器学习算法之k均值聚类（k-means）

一开始的目的是学习十大挖掘算法,并用编码实现一遍，但越往后学习，越往后实现编码，越发现自己的编码水平低下，学习能力低。下面的代码中这些可以优化的并没有改，这么做的原因是希望做到抛砖引玉，欢迎大家丢玉，如果能给出优化方法就更好了

香蕉麦乐迪 0喜欢 / 0评论 2018-02-23

Python机器学习之K-Means聚类实现详解

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。上述idx得到的300

jiayuqicz 0喜欢 / 0评论 2018-02-22

python实现k-means聚类算法

k-means是发现给定数据集的k个簇的算法，也就是将数据集聚合为k类的算法。算法过程如下：1）从N个文档随机选取K个文档作为质心2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类，我们一般取欧几里得距离3）重新计算已经得到的各个类的质心

CorrectForm 0喜欢 / 0评论 2018-02-23

详解K-means算法在Python中的实现

K-means是机器学习中一个比较常用的算法，属于无监督学习算法，其常被用于数据的聚类，只需为它指定簇的数量即可自动将数据聚合到多类中，相同簇中的数据相似度较高，不同簇中数据相似度较低。通过迭代寻找k个类簇的一种划分方案，使得用这k个类簇的均值来代表相应各

HTML学堂码匠 0喜欢 / 0评论 2017-12-05

python中学习K-Means和图片压缩

大家在学习python中，经常会使用到K-Means和图片压缩的，我们在此给大家分享一下K-Means和图片压缩的方法和原理，喜欢的朋友收藏一下吧。通俗的介绍这种压缩方式，就是将原来很多的颜色用少量的颜色去表示，这样就可以减小图片大小了。下面首先我先介绍下

kker 0喜欢 / 0评论 2019-04-29

K-means聚类算法介绍与利用python实现的代码示例

今天说K-means聚类算法，但是必须要先理解聚类和分类的区别，很多业务人员在日常分析时候不是很严谨，混为一谈，其实二者有本质的区别。分类其实是从特定的数据中挖掘模式，作出判断的过程。k-means是一种非常常见的聚类算法，在处理聚类任务中经常使用。K-m

yuanran0 0喜欢 / 0评论 2017-11-13

python中实现k-means聚类算法详解

k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的，相近的就会放到同一个类别中去。另一种则是根据具体的需求确定，比如说进行衬衫尺寸的聚类你可能就会考虑分成三类等。完成后我们则需要将每个簇算出平均值，用这个点作为新的质心。

slxshare 0喜欢 / 0评论 2017-11-11

Spark实现K-Means算法代码示例

K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的那个聚类的类簇中心。初始的类簇中心，可以是随机的，也可以是K

yimixgg 0喜欢 / 0评论 2017-10-17

使用Hadoop做K-Means计算的总结

以K均值聚类算法为实验对象。通过调整各项Hadoop参数，已经不能再进一步缩短K均值迭代的时间，在计算过程中，CPU User态的使用率始终维持在95%左右。MapReduce提供Partitioner接口，它的作用就是根据key或value及reduce

shenhongdb 0喜欢 / 0评论 2012-03-11

机器学习K-means算法在Python中的实现

K-means是机器学习中一个比较常用的算法，属于无监督学习算法，其常被用于数据的聚类，只需为它指定簇的数量即可自动将数据聚合到多类中，相同簇中的数据相似度较高，不同簇中数据相似度较低。)n_clusters: 簇的个数，即你想聚成几类 init:

rioalian 0喜欢 / 0评论 2017-09-12