Python实现k-means算法

本文实例为大家分享了Python实现k-means算法的具体代码，供大家参考，具体内容如下

这也是周志华《机器学习》的习题9.4。

数据集是西瓜数据集4.0，如下

编号,密度,含糖率
1,0.697,0.46
2,0.774,0.376
3,0.634,0.264
4,0.608,0.318
5,0.556,0.215
6,0.403,0.237
7,0.481,0.149
8,0.437,0.211
9,0.666,0.091
10,0.243,0.267
11,0.245,0.057
12,0.343,0.099
13,0.639,0.161
14,0.657,0.198
15,0.36,0.37
16,0.593,0.042
17,0.719,0.103
18,0.359,0.188
19,0.339,0.241
20,0.282,0.257
21,0.784,0.232
22,0.714,0.346
23,0.483,0.312
24,0.478,0.437
25,0.525,0.369
26,0.751,0.489
27,0.532,0.472
28,0.473,0.376
29,0.725,0.445
30,0.446,0.459

算法很简单，就不解释了，代码也不复杂，直接放上来：

# -*- coding: utf-8 -*- 
"""Excercise 9.4"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sys
import random

data = pd.read_csv(filepath_or_buffer = '../dataset/watermelon4.0.csv', sep = ',')[["密度","含糖率"]].values

########################################## K-means ####################################### 
k = int(sys.argv[1])
#Randomly choose k samples from data as mean vectors
mean_vectors = random.sample(data,k)

def dist(p1,p2):
  return np.sqrt(sum((p1-p2)*(p1-p2)))
while True:
  print mean_vectors
  clusters = map ((lambda x:[x]), mean_vectors) 
  for sample in data:
    distances = map((lambda m: dist(sample,m)), mean_vectors) 
    min_index = distances.index(min(distances))
    clusters[min_index].append(sample)
  new_mean_vectors = []
  for c,v in zip(clusters,mean_vectors):
    new_mean_vector = sum(c)/len(c)
    #If the difference betweenthe new mean vector and the old mean vector is less than 0.0001
    #then do not updata the mean vector
    if all(np.divide((new_mean_vector-v),v) < np.array([0.0001,0.0001]) ):
      new_mean_vectors.append(v)  
    else:
      new_mean_vectors.append(new_mean_vector)  
  if np.array_equal(mean_vectors,new_mean_vectors):
    break
  else:
    mean_vectors = new_mean_vectors 

#Show the clustering result
total_colors = ['r','y','g','b','c','m','k']
colors = random.sample(total_colors,k)
for cluster,color in zip(clusters,colors):
  density = map(lambda arr:arr[0],cluster)
  sugar_content = map(lambda arr:arr[1],cluster)
  plt.scatter(density,sugar_content,c = color)
plt.show()

运行方式：在命令行输入 python k_means.py 4。其中4就是k。
下面是k分别等于3，4，5的运行结果，因为一开始的均值向量是随机的，所以每次运行结果会有不同。

Python实现k-means算法

Python实现k-means算法

campwin

相关推荐

k-means聚类算法原理简析

k-means算法求解anchors

数据建模（）-K-means聚类算法

机器学习——Mini Batch K-Means算法

【机器学习】k-means算法原理自实现

【机器学习】机器学习入门08 - 聚类与聚类算法K-Means

数据挖掘--K-means

算法 - k-means算法

k-means和iosdata聚类算法在生活案例中的运用

Clustering：K-means Extention

Cluster：K-means Algorithm

聚类分析（二） K-MEANS

opencv python K-Means聚类

R语言聚类分析：k-means和层次聚类

K-Means算法的10个有趣用例

k均值聚类(K-means)

k均值聚类算法（二）（k-means++）

K-means在Python中的实现

如何运用k-means聚类进行图像识别、色彩压缩

一个完整的K-means聚类算法指南！

K-Means算法的10个有趣用例

机器学习初学者的K-Means聚类算法概述

从头开始实现机器学习K-Means聚类

机器学习：Python实现K-MEANS聚集

基于机器学习聚类算法K-means完成经典的压缩彩色图像的操作

Python机器学习第一印象｜什么是K-means

Python机器学习算法之k均值聚类（k-means）

Python机器学习之K-Means聚类实现详解

python实现k-means聚类算法

详解K-means算法在Python中的实现

python中学习K-Means和图片压缩

K-means聚类算法介绍与利用python实现的代码示例

python中实现k-means聚类算法详解

Spark实现K-Means算法代码示例

使用Hadoop做K-Means计算的总结

机器学习K-means算法在Python中的实现

K-MEANS算法总结