数据挖掘--K-means

muyurenzheng 2019-12-02

K-Means方法是MacQueen1967年提出的。给定一个数据集合X和一个整数K（?n），K-Means方法是将X分成K个聚类并使得在每个聚类中所有值与该聚类中心距离的总和最小。

K-Means聚类方法分为以下几步：

[1] 给K个cluster选择最初的中心点，称为K个Means。

[2] 计算每个对象和每个中心点之间的距离。

[3] 把每个对象分配给距它最近的中心点做属的cluster。

[4] 重新计算每个cluster的中心点。

[5] 重复2，3，4步，直到算法收敛。

以下几张图动态展示了这几个步骤：

数据挖掘--K-means

数据挖掘--K-means

数据挖掘--K-means

数据挖掘--K-means

数据挖掘--K-means

数据挖掘--K-means

数据挖掘--K-means

下面，我们以一个具体的例子来说明一下K-means算法的实现。

数据挖掘--K-means

数据挖掘--K-means

数据挖掘--K-means

数据挖掘--K-means

K-means算法的优缺点：

优点：

（1）对于处理大数据量具有可扩充性和高效率。算法的复杂度是O（tkn），其中n是对象的个数，k是cluster的个数，t是循环的次数，通常k，t<<n。

（2）可以实现局部最优化,如果要找全局最优，可以用退火算法或者遗传算法

缺点：

（1）Cluster的个数必须事先确定，在有些应用中，事先并不知道cluster的个数。

（2）K个中心点必须事先预定，而对于有些字符属性，很难确定中心点。

（3）不能处理噪音数据。

（4）不能处理有些分布的数据（例如凹形）

K-Means方法的变种

(1) K-Modes ：处理分类属性

(2) K-Prototypes：处理分类和数值属性

(3) K-Medoids

它们与K-Means方法的主要区别在于：

（1）最初的K个中心点的选择不同。

（2）距离的计算方式不同。

（3）计算cluster的中心点的策略不同。

: muyurenzheng

相关推荐

简单生活第一步：数据科学家该了解的4个Python自动库

机器学习是一个新兴领域，其中用来建模数据的机器学习模型是一个自动化的过程，AutoML的功能使建模更为轻松。如果对AutoML感兴趣，笔者向你推荐以下4个必学的Python库。auto-sklearn是一个自动机器学习工具包，无缝集成业内许多人都熟悉的标准

黄刚的技术 0喜欢 / 10评论 2020-10-13

5个开源数据挖掘工具，收下这波干货

数据挖掘是从大量数据中提取隐藏的或未知，但可能有用信息的过程。尤其在机器学习中，数据挖掘是十分重要的一环。今天给大家介绍5个开源数据挖掘工具，收下这波干货吧。Weka是用Java编写的，可以在大部分平台上运行，是一种开源机器学习软件，能通过图形用户界面，标

小小梦想家 0喜欢 / 0评论 2020-09-26

开源数据挖掘工具，有这6个就足够

数据在当今世界意味着金钱，随着向基于App的世界的过渡，数据呈指数增长。今天给大家介绍6个开源数据挖掘工具，有需要的朋友可以自取，有更好用的工具也欢迎交流。该平台是Python、Ruby、Groovy等各种脚本语言的组合，还有其他Java软件包。ELKI用

YeChao 0喜欢 / 0评论 2020-08-04

8个优秀的数据挖掘工具

使用python的开发人员都少不了数据挖掘工具，因为一般来说，能否充分利用数据，取决于是否有合适的工具来清理、准备、合并并正确分析。今天小编介绍8个优秀的数据挖掘工具，感兴趣的小伙伴可以收藏。Scikit-Learn是很优秀的机器学习python库，能够提

ZweixunSJTU 0喜欢 / 0评论 2020-07-28

数据挖掘----推荐算法(CF)

User-Based CF 计算user与user的相似度矩阵。- 具有相似兴趣的用户在未来也具有相似兴趣。- 将N 喜欢的物品推荐给用户。

风吹夏天 0喜欢 / 0评论 2020-07-26

如何自学成为数据科学家或AI工程师？你需要攻克这九点

并非每个人都有时间在教室里学习数据科学、人工智能或机器学习，也并非每个人都能负担得起正式学习这些领域知识所需要的费用。那我们应该怎么办呢？软件开发者、机器学习工程师 Jerry Buaba 提供了一条自学路径。自学是一门艺术，需要足够的自律、勤奋和专注。然

inabaraku 0喜欢 / 0评论 2020-07-22

机器学习工程师与数据科学家的大斗法

随着人工智能的发展，市场上出现了一些新的工作岗位。但对于这些新兴领域的新兴职业，我们很多人难以分辨其间的不同之处，尤其是机器学习工程师和数据科学家的作用有何区别，这很令人困惑。机器学习工程师则将数据视为必须接收并能以某种适当的形式高效输出的东西。当谈论Ne

xceman 0喜欢 / 0评论 2020-07-19

实验2：基于Weka的数据挖掘程序设计

在掌握基于Weka工具的数据挖掘应用的基础上，实现基于Weka API的数据挖掘程序设计。在Eclipse中建立一个新的Java工程，用于放置实验程序的源代码。编程请遵循Java编程规范。读取“电费回收数据.csv”。将数值型字段规范化至[0,1]区间。调

clouderyu 0喜欢 / 0评论 2020-07-17

python数据挖掘常用工具有哪几种？

python有强大的第三方库，广泛用于数据分析，数据挖掘、机器学习等领域，下面小编整理了python数据挖掘的一些常用库，希望对各位小伙伴学习python数据挖掘有所帮助。能够提供数组支持，进行矢量运算，并且高效地处理函数，线性代数处理等。提供真正的数组，

santiago00 0喜欢 / 0评论 2020-07-11

数据挖掘--决策树复习

希望通过所给的训练数据学习一个贷款申请的决策树，用以对未来的贷款申请进行分类，即当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请。比如，我们通过上述数据表得到两个可能的决策树，分别由两个不同特征的根结点构成。

挨T榕 0喜欢 / 0评论 2020-06-17

大数据分析技术【超星尔雅课后题】

5. 单机串行处理1G，URL数据需要10分钟，Hadoop平台并行处理只需要1分钟，那么加速比为：10

数据挖掘纵横谈 0喜欢 / 0评论 2020-06-14

大数据分析领域模型有哪些

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型，是纯粹从科学角度出发定义的。因此，我们需要降低维度数量并降低维度间共线性影响。　　数据降维也被成为数据归约或数据约减，其目的是减少参与数据计算和建模维度的数量。　　回归是研究自变量x对

swazerz 0喜欢 / 0评论 2020-06-04

DQN（Deep Q-learning）入门教程（五）之DQN介绍

在上一篇博客DQN入门教程（四）之Q-learning Play Flappy Bird 中，我们使用Q-Table来储存state与action之间的q值，那么这样有什么不足呢？这个时候我们联想我们在神经网络中学到的知识，我们可以将Q-table变成一个

muyurenzheng 0喜欢 / 0评论 2020-05-30

大数据开发？大数据分析？数据挖掘算法？

　　关于大数据的知识，因为自己之前做大创、听讲座以及主动地去踩学习的坑，所以关于学习和规划我可以给予一些经验。总之很多因素让我做出了选择大数据的决定。我是今年2月份上手的大数据开发路线，零零碎碎学了很多理论知识，最近有时间才搭建Linux虚拟机来实现部分代

clouderyu 0喜欢 / 0评论 2020-05-27

大数据分析技术与方法有哪些

越来越多的应用涉及到大数据。这些大数据的数量、速度、多样性等属性显示了大数据的复杂性。因此，大数据的分析方法在大数据领域尤为重要，这可以说是决定最终信息是否有价值的决定性因素。　　大数据时代对人类的数据驾驭能力提出了新的挑战，也为人们获得更为深刻、全面的洞

小小梦想家 0喜欢 / 0评论 2020-05-14

数据分析职业前景规划

了解数据分析师的具体需求之前，我们有必要先了解数据分析师的职位体系。不同公司对数据分析师的职位划分稍有不同，在一些中小型企业，没有成立独立的数据中心前，数据分析的相关职位往往是在譬如市场部、运营部这些部门之下，通常数据分析成员在2-4人不等。

Cocainebai 0喜欢 / 0评论 2020-05-12

数据挖掘竞赛利器-Stacking和Blending方式

一.Stacking思想简介1.Stacking的思想是一种有层次的融合模型，比如我们将用不同特征训练出来的三个GBDT模型进行融合时，我们会将三个GBDT作为基层模型，在其上在训练一个次学习器,用于组织利用基学习器的答案，也就是将基层模型的答案作为输入，

clouderyu 0喜欢 / 0评论 2020-04-08

机器学习工程师和数据科学家之间的区别

如今，数据科学家的工作已经变得越来越通用，以至于机器学习可能完全包含在其中。数据科学家和机器学习工程师是目前行业中最热门的两项工作。机器学习是利用人工智能使计算机无需编程就能学习。在机器学习中，可以通过使用可访问的数据和不同的算法来构建机器学习模型。既然我

白飞飞Alan 0喜欢 / 0评论 2020-03-13

数据挖掘入门系列教程（二）之分类问题OneR算法

在上一篇博客中，我们通过分析亲和性来寻找数据集中数据与数据之间的相关关系。这篇博客我们会讨论简单的分类问题。分类问题，顾名思义我么就是去关注类别这个变量。分类应用的目的是根据已知类别的数据集得到一个分类模型，然后通过这个分类模型去对类别未知的数据进行分类。

xiaoxiaoCNDS 0喜欢 / 0评论 2020-03-09

数据挖掘入门系列教程（一）之亲和性分析

使用的编程语言为Python3.8.1，使用JupyterNotebook作为开发环境。下面将以最简单的亲和性分析来开始吧。亲和性分析根据样本个体之间的关系，确定它们关系的亲疏。每一列代表一种商品。找到这种规则很简单，找出交易数据中同时购买A商品和B商品的

小小梦想家 0喜欢 / 0评论 2020-03-05

Kemaswill 机器学习数据挖掘推荐系统 Python optparser模块简介

Python optparser模块简介

muyurenzheng 0喜欢 / 0评论 2020-02-23

数据分析的一些概念

例如利用数据预测用户购物行为属性商业智能。十大算法之首，决策树算法，特点包括：1.构造过程中剪枝 2.处理连续属性；3.处理不完整的数据。用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好

小小梦想家 0喜欢 / 0评论 2020-02-01

「数据挖掘入门系列」数据挖掘模型之分类和预测 - 逻辑回归

如果基于商品的历史销售情况，以及节假日、气候、竞争对手等影响因素，对商品的销量进行趋势预测？除此之外，运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯，管理人员希望了解下一个月的销售收入等，这些都是分类与预测的日志。分类和预测是预测问题的两种主要

chognzhihongseu 0喜欢 / 0评论 2020-01-30

「数据挖掘入门系列」数据探索之数据特征分析

对数据质量进行简单的分析后，我们就可以开始来分析数据的特征分析了。数据的特征分析可以从以下几个方面开展：。通过以上5种方式，可以找到数据中存在的某种特征。分析连续变量之间线性相关程度的强弱，并用适当的统计指标表示出来的过程称为相关分析。判定系数：判断系数是

lmseohy 0喜欢 / 0评论 2020-01-30

「数据挖掘入门系列」Python快速入门

本次入门系列将使用Python作为开发语言。我们将基于Python 2.7版本、以及Python的开发发行版本Anaconda版本来开发。Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。下

liangzuojiayi 0喜欢 / 0评论 2020-01-29

数据挖掘基础

伴随着信息化系统建设的发展，各行各业的中大型企业都存储了大量的业务数据。大部分的企业，都是凭借管理人员的自身个人经验来开展这项工作。如果有一套系统，能够自动地或者半自动地发现相关的知识和解决方案，这样将会有效地提高企业的决策水平和竞争能力。通过数据挖掘可以

小小梦想家 0喜欢 / 0评论 2020-01-29

【数据分析&数据挖掘】异常值的判断与去除——3σ & 箱线图分析

# 异常值 ——远离正常值范围的错误值。# 异常值判断 ——3σ 箱线图分析。# 3σ 接住标准正态部分得到的规律——99.73%都在之间，超过这个范围的数据认为是异常的。进行3sigma异常值剔除。# 计算四分位间距。# 验证——加载detail. #

Norsaa 0喜欢 / 0评论 2019-12-29

【数据分析&数据挖掘】薪资分布直方图

# 让大家自己自定分组，来查看大部分员工的薪水水平，来给公司做薪水指导。

探索世界改变世界 0喜欢 / 0评论 2019-12-29

【数据分析&数据挖掘】2000-2017年各个产业生产总值箱线图

res = np.load("./国民经济核算季度数据.npz", allow_pickle=True). x = (list(values[:, 3]), list(values[:, 4]), list(values[:, 5]))

lmseohy 0喜欢 / 0评论 2019-12-29

【数据分析&数据挖掘】相同数据结构互相填充

data_1 = pd.read_excel("./填充数据.xlsx", sheetname=0). data_2 = pd.read_excel("./填充数据.xlsx", sheetname=1)

数据挖掘工人 0喜欢 / 0评论 2019-12-29

【数据分析&数据挖掘】数组的数据类型

arr = np.arange # [0. 1. 2. 3. 4. 5.]

flyfor0 0喜欢 / 0评论 2019-12-29

数据分析与挖掘

从大量数据中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势，并用这些知识和规则建立用于决策支持的模型，提供预测性决策支持的方法、工具和过程，就是数据挖掘。数据挖掘的基本任务包括利用分类预测、聚类分析、关联规则、时序模式、偏差检验、智能推荐等方法

flyfor0 0喜欢 / 0评论 2019-12-18

数据挖掘--模型挖掘之聚类

主要思想是把数据对象排列成一个聚类树，在需要的层次上对其进行切割，相关联的部分构成一个cluster。把多维数据空间划分成一定数目的单元，然后在这种数据结构上进行聚类操作。该类方法的特点是它的处理速度，因为其速度与数据对象的个数无关，而只依赖于数据空间中

clouderyu 0喜欢 / 0评论 2019-12-03

Python数据挖掘与机器学习技术入门实战

数据挖掘指的是对现有的一些数据进行相应的处理和分析，最终得到数据与数据之间深层次关系的一种技术。具体来说，超市的货品摆放问题可以划分为关联分析类场景。一言以蔽之，凡是让机器通过我们所建立的模型和算法对数据之间的关系或者规则进行学习，最后供我们利用的技术都是

santiago00 0喜欢 / 0评论 2019-11-21

终于有人把数据、信息、算法、统计、概率和数据挖掘都讲明白了！

一些朋友会在稍作思考后回答“数字和字符、字母，这些都是数据”。不知道你现在是不是正在纠结哪个回答更正确，亦或第二个回答更合理一些，我们先放一放。大家不要以为算法全都是算法工程师的事情，跟普通的程序员或者分析人员无关，算法说到底是对处理逻辑理解的问题。这一点

小小梦想家 0喜欢 / 0评论 2019-11-14

K近邻（k-Nearest Neighbor，KNN）算法，一种基于实例的学习方法

本文是一篇介绍K近邻数据挖掘算法的文章，而所谓数据挖掘，就是讨论如何在数据中寻找模式的一门学科。更进一步地，机器学习从数据中挖掘结构模式的过程，称为知识表达，机器学习所能发现的模式有许多不同的表达方式，每一种方式就是一种推断数据输出结构的技术，包括：。K近

卖小孩的咖啡 0喜欢 / 0评论 2019-11-09

国内接收论文占四成图神经网络大火，ACM CIKM2019最佳论文已出炉

昨晚，在北京举行的信息检索顶会 ACM CKIM 2019 上，来自以色列的研究者获得了最佳论文奖项，阿里巴巴获最佳应用论文奖，最佳 Demo 奖则颁给了 IBM 的研究者。自 1992 年首次举办以来，它已经在全球的 8 个国家举行过 27 次会议，今年

yousanfen 0喜欢 / 0评论 2019-11-06

大数据架构详解：从数据获取到深度学习

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机是怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构，使之不断改善自身的性能。此外，数据挖掘和机器学习有很大的交集。本文将从

datongmuyile 0喜欢 / 0评论 2019-11-04

大数据时代，数据信息的无处遁形

数据挖掘，英文名叫Data mining，一般是指从大型数据库中将隐藏的预测信息抽取出来的过程，而更为精确的解释则是“从数据中挖掘知识”。假如某东需要预测用户在未来5天内的购买需求，以达到精准营销的目的，那么此时完全可以借助数据挖掘实现。也就是说，我们能够

sxyyu 0喜欢 / 0评论 2019-11-04

AI人才稀缺：全面解读数据科学家成长的4个阶段

本文约5800字，建议阅读10分钟。一次偶然的机会，有一位正在深造机器学习方面学位的朋友问了笔者一个问题：如何成为一名合格的数据科学家？在人工智能时代，将数据的价值发挥出来的要素有资金、数据、平台、技术、人员等。若对机器学习比较感兴趣，相信人们已经看到了很

dyhrj0 0喜欢 / 0评论 2019-10-17

数据挖掘入门 -

有些数据本身很大，自身无法作为数组的下标保存对应的属性。当数据只与它们之间的相对大小有关，而与具体是多少无关时，可以进行离散化。①原数据：1,999,100000,15；处理后：1,3,4,2；通过使用高层的概念来替代底层的属性值来规约数据。一个假设在训

Norsaa 0喜欢 / 0评论 2019-10-29

中国公司获全球AI大赛第一名，老外称支付宝比北美银行还安全

中国科技公司在全球AI赛事上获得第一。8月7日，被称为AI数据挖掘“世界杯”的KDDCUP 2019大赛在美国落幕。本次比赛全球共有1600余支队伍参加，获得第一名的是来自中国的支付宝安全团队。这也标志着中国的AI应用技术已经在世界前列。今年，支付宝又将其

YeChao 0喜欢 / 0评论 2019-09-07

机器学习、数据科学和数据挖掘中的数据集类型

数据集有三个一般特征，即：维度，稀疏度，和分辨率。接下来我们将讨论它们究竟是什么意思。当遇到这个问题时，它被称为维度的诅咒。因此数据矩阵是大多数统计数据的标准数据格式。

huzai 0喜欢 / 0评论 2019-09-07

初涉数据挖掘

对于数据挖掘，其实我脑海里只有寥寥无几的个词：大数据，机器学习，搜索；作为一个只听过几节公开课的小白，我希望能够和大家一起进步；以上是我关于如何学习数据挖掘这一新领域的方法，希望大家多多指正；条件随机场模型：无向图模型，

muyurenzheng 0喜欢 / 0评论 2014-11-24

数据仓库概念

OLAP 联机事务分析。其中抽取转换加载称为ETL过程。

crazyhulu 0喜欢 / 0评论 2013-12-04

搜狗实验室提供了一些数据挖掘加工的数据

http://www.sogou.com/labs/resources.html

dyhrj0 0喜欢 / 0评论 2013-05-19

数据挖掘10大算法(1)——PageRank

文章的重点将偏向于算法的来源以及算法的主要思想，不涉及具体的实现。如果发现文中有错，希望各位指出来，一起讨论。在这些算法中，最引人注目的自然是Google的核心技术之一——PageRank。因此本系列就先来探索PageRank的诞生过程。PageRank的

Oudasheng 0喜欢 / 0评论 2013-05-17

谈如何学好数据挖掘

下面是一位朋友的问题，其实每天都有不少同学和朋友向我提问各种学习数据分析、数据挖掘、统计分析等方面的问题，有时候真的很难仔细回答。其实，每个人都有自己的学习路径，还有自己的知识结构和期望的职业生涯，要得到一个统一的答案是困难的！什么是解决问题：就是在明确实

muyurenzheng 0喜欢 / 0评论 2013-03-18

深入浅出谈数据挖掘——数据挖掘主要解决的四类问题

数据挖掘主要侧重解决四类问题：分类、聚类、关联、预测，而常规数据分析则侧重于解决除此之外的其他数据分析问题：如描述性统计、交叉报表、假设检验等。这是一个高度的归纳，数据挖掘的应用就是把这几类问题演绎的一个过程。训练的大概思路是这样的：对所有已经收集到的特征

Mrright00 0喜欢 / 0评论 2015-01-28