mahout之1-Canopy聚类

xiajlxiajl 2010-07-01

1.Canopy聚类

Canopy聚类是一种简单、快速、但不太准确的聚类方法。

该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。

while(没有标记的数据点){

选择一个没有强标记的数据点p

把p看作一个新Canopyc的中心

离p距离<T1的所有点都认为在c中，给这些点做上弱标记

离p距离<T2的所有点都认为在c中，给这些点做上强标记

}

Canopy聚类常作为更强聚类方法的初始步骤。

mahoutCanopy聚类实现，采用了两个map-reducejob

第一个Joborg.apache.mahout.clustering.canopy.CanopyDriver：

mapper:org.apache.mahout.clustering.canopy.CanopyMapper

对划分到每个mapper的点根据阈值T1，T2标记Canopy，输出在该mapper上所有Canopy的中心；

mahout实现对原算法略做改动，而避免需先保存所有的点

修改后的算法org.apache.mahout.clustering.canopy.addPointToCanopies

对于一个数据点，遍历已有Canopy{

该点到某Canopy距离<T1,则加入该Canopy；

若点到某Canopy距离<T2,则标记该点已于该Canopy强关联；

}

若该点不存在强关联的Canopy，则为其创建一个新Canopy

reducer:org.apache.mahout.clustering.canopy.CanopyReducer

整个Job就一个reduce任务,对mapper输出的所有点再次使用Canopy聚类,并输出中心点

第二个Joborg.apache.mahout.clustering.canopy.ClusterDriver

使用第一个Job输出的中心点，采用最近距离原则对原数据点进行聚类

用Canopy聚类作为其他方法的初始步骤时，通常不执行该Job

参数调整：

当T1过大时，会使许多点属于多个Canopy，可能会造成各个簇的中心点间距离较近，各簇

间区别不明显；

当T2过大时，增加强标记数据点的数量，会减少簇个个数；T2过小，会增加簇的个数，同时

增加计算时间

另外：mahout提供了几种常见距离计算的实现，均实现org.apache.mahout.common.distance.DistanceMeasure接口

CosineDistanceMeasure：计算两向量间的夹角

SquaredEuclideanDistanceMeasure：计算欧式距离的平方

EuclideanDistanceMeasure：计算欧式距离

ManhattanDistanceMeasure：马氏距离，貌似图像处理中用得比较多

TanimotoDistanceMeasure：Jaccard相似度，T(a,b)=a.b/(|a|^2+|b|^2-a.b)

以及带权重的欧式距离和马氏距离。

: xiajlxiajl

相关推荐

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 0喜欢 / 5评论 2020-11-11

转录组数据分析思路

转录组紧紧围绕基因表达量和功能分析两部分，结合生物学问题来进行数据分析。高表达基因已经研究比较透彻，应该更多关注中低表达基因。功能富集分析不应过多关注显著P值，功能通路作为一个整体，不应排除差异非显著的基因作用。根据功能来推测生物学过程，需要经验，如胞外信

Fredreck 0喜欢 / 0评论 2020-07-19

k-means聚类算法原理简析

K-means算法是最普及的聚类算法，也是一个比较简单的聚类算法。算法接受一个未标记的数据集，然后将数据聚类成不同的组，同时，k-means算法也是一种无监督学习。那么用k-means算法来解决这个问题会是怎样的呢？完全没有人为的让他进行分类的学习，也没有

horizonheart 0喜欢 / 0评论 2020-07-05

大数据分析领域模型有哪些

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型，是纯粹从科学角度出发定义的。因此，我们需要降低维度数量并降低维度间共线性影响。　　数据降维也被成为数据归约或数据约减，其目的是减少参与数据计算和建模维度的数量。　　回归是研究自变量x对

swazerz 0喜欢 / 0评论 2020-06-04

K均值(K-MEANS)

Kmeans是一种简单的聚类方法，一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。　　2 令k从2到一个固定值如10，在每个k值上重复运行数次kmeans，并计算当前k的平均轮廓系数，最后选取轮廓系数最大的值对应的k作

路漫 0喜欢 / 0评论 2020-05-30

有了K均值聚类，为什么还需要DBSCAN聚类算法？

聚类本文转载自公众号“读芯术”分析是一种无监督学习法，它将数据点分离成若干个特定的群或组，使得在某种意义上同一组中的数据点具有相似的性质，不同组中的数据点具有不同的性质。聚类分析包括基于不同距离度量的多种不同方法。2014年，DBSCAN算法在领先的数据挖

只能做防骑 0喜欢 / 0评论 2020-05-13

11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。　　　分类简单来说，就是根据文本的特征或属性，划分到已有的类别中。聚类不需要对数据进行训练和学习。有监督学习即人工给定一组数据，每个数据的属性值也给出，对于数据集中的每个样本，我们想要算法预测并给出正确答案：回归问题，分类问题

horizonheart 0喜欢 / 0评论 2020-05-09

11.分类与监督学习，朴素贝叶斯分类算法

　　　　　　聚类是将一系列点分成若干类，事先是没有类别的，常用算法是K-Means算法，是一种无监督学习。　　② 无监督学习：缺乏足够的先验知识；在数据中发现一些规律；任务是聚类和降维。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。

wonner 0喜欢 / 0评论 2020-05-09

R语言绘图——层次聚类图及树状图添加side bar

聚类分析作图往往包含热图和树状图。热图用来展示每个样本点数值大小和聚集模式。树状图用来表示样本之间以及变量之间的距离远近。R官网目前提供了至少45个可以绘制热图的包，其中比较常见的、可以添加行列注释信息条的聚类作图包有pheatmap、gplots等等。以

NVEFLY 0喜欢 / 0评论 2020-04-19

K-均值聚类（k-means）算法

model_kmeans=KMeans #建立聚类模型对象。colors=['#4EACC5','#FF9C34','#4E9A06'] #设置不同类别的颜色。plt.scatter #展示聚类子集内的样本点。plt.plot #展示各聚类子集的

从早忙到晚的闲人 0喜欢 / 0评论 2020-04-13

Cluster Analysis in Python

Normalize a group of observations on a per feature basis.# Use the whiten() function to standardize the data. # Check mean and s

Yiyang 0喜欢 / 0评论 2020-03-03

请别再把深度学习与机器学习混为一谈了！

机器学习算法通常分为：监督和非监督两种。监督式机器学习又可以进一步被分为：分类和回归。无监督学习则可以进一步分为：聚类、关联、以及降维。它需要在两个或多个类之间进行选择，并最终为每一个类分配概率。显然，在回归和分类的机器学习算法之间有一定的重叠度。聚类问题

sayhaha 0喜欢 / 0评论 2020-02-05

数据建模（）-K-means聚类算法

K-Means算法是典型基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用作为相似性的评价指标，即认为2个对象的距离越近，其相似度越大。对连续属性，要先对各属性值进行零-均值规范，再进行距离计算。K-Means聚类算法中，一般

路漫 0喜欢 / 0评论 2020-01-23

机器学习——谱聚类

　　具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。　　通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据进行聚类的目的;其本质是将聚类问题转换为图的最优划分问题，是一种点对聚类算法。基于图的最优划分规则就是子图内的相似度最大，子

kingzone 0喜欢 / 0评论 2020-01-01

【机器学习】k-means算法原理自实现

from sklearn.cluster import KMeans # 导入k-means. # 获取数据的行数。# # 随机选择一行所有的数据作为一个中心。# 先初始化一个全为0 的聚类中心。# 设计列表来退出循环。# 设计一个计数器来给聚类

lixiaotao 0喜欢 / 0评论 2019-12-29

监督学习与非监督学习

是有特征和标签的，即便是没有标签的，机器也是可以通过特征和标签之间的关系，判断出标签。监督学习是通过训练让机器自己找到特征和标签之间的联系，在以后面对只有特征而没有标签的数据时可以自己判别出标签。相当于给定数据，预测标签。常见的有监督学习算法：回归分析和统

sxyhetao 0喜欢 / 0评论 2019-12-14

聚类算法总结以及python代码实现

使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。层次聚类算法实际上分为两类：自上而下或自下而上。因此，自下而上的层次聚类称为合成聚类或HAC。将两个聚类合并为具有最小平均连接的组。此外，该算法对距离度量的选择不敏感;它们的工作方式都很好，

wuxiaosi0 0喜欢 / 0评论 2019-12-06

Python使用RMF聚类分析客户价值

投资机构或电商企业等积累的客户交易数据繁杂。需要根据用户的以往消费记录分析出不同用户群体的特征与价值，再针对不同群体提供不同的营销策略。根据美国数据库营销研究所Arthur Hughes的研究，客户数据库中有三个神奇的要素，这三个要素构成了数据分析最好的指

huimor 0喜欢 / 0评论 2019-12-07

零基础的程序员们，关于大数据挖掘的知识点，都在这里了

下面是一些关于大数据挖掘的知识点，今天和大家一起来学习一下。

nimeijian 0喜欢 / 0评论 2019-12-05

数据挖掘--模型挖掘之聚类

主要思想是把数据对象排列成一个聚类树，在需要的层次上对其进行切割，相关联的部分构成一个cluster。把多维数据空间划分成一定数目的单元，然后在这种数据结构上进行聚类操作。该类方法的特点是它的处理速度，因为其速度与数据对象的个数无关，而只依赖于数据空间中

clouderyu 0喜欢 / 0评论 2019-12-03

使用高斯混合模型，让聚类更好更精确（附数据&代码&学习资源）

本文约3500字，建议阅读10+分钟。本文简单介绍聚类的基础知识，包括快速回顾K-means算法，然后深入研究高斯混合模型的概念，并用Python实现。无监督学习中最流行的技术之一是聚类，这通常我们在早期学习机器学习时学习的概念，而且很容易掌握。我相信你已

moshlwx 0喜欢 / 0评论 2019-11-15

MATLAB实例：聚类初始化方法与数据归一化方法

%随机初始化，随机选K行作为聚类中心，并用欧氏距离计算其他点到其聚类，将数据集分为K类，输出每个样例的类标签。rand_array=randperm; %产生1~X_num之间整数的随机排列。para_miu=data; %随机排列取前K个数，在X

xiaoxue 0喜欢 / 0评论 2019-11-08

算法 - k-means++

Kmeans++算法，主要可以解决初始中心的选择问题，不可解决k的个数。Kmeans++主要思想是选择的初始聚类中心要尽量的远。

Happyunlimited 0喜欢 / 0评论 2019-11-09

基于大数据聚类社群的作弊用户发现方法

前文提到为了更好的识别出这些异常用户，我们利用用户的师徒关系构建连通图，把同一个连通图上的用户视为一个社群，利用Spark Grahpx实现了一个简单高效的社群发现功能。具体内容可以查看上一篇文章基于Spark Grahpx+Neo4j 实现用户社群发现，

蜗牛慢爬的李成广 0喜欢 / 0评论 2019-10-02

机器学习总结（算法）：聚类、决策树、能量模型、LSTM等

KNN找到k个最近邻，利用它们的标签进行预测。例如，下面的黑点应该通过简单多数投票被分类为蓝色。有不同的指标来衡量距离。最常见的是欧氏距离。通常，如果我们在进行预测时增加k的数量，则偏差会增加，而方差降低。对质心进行重新估计，对数据点进行重新聚类。使用中位

cckchina 0喜欢 / 0评论 2019-09-23

k-means和iosdata聚类算法在生活案例中的运用

所以，本篇博客主要是对生活中的案例，运用k-means算法和isodata聚类算法进行数据评价和分析。本文是对“中国男足近几年在亚洲处于几流水平？”的问题进行分析。按照样本之间的距离大小，将样本集划分为K个簇。

lixiaotao 0喜欢 / 0评论 2019-10-28

lucene得到聚类的数量

private Map<String, Integer> unitMap = new HashMap<String, Integer>();//单位名称

singnojava 0喜欢 / 0评论 2014-04-22

干货 | 全面理解无监督学习基础知识

无监督学习的特点是，模型学习的数据没有标签，因此无监督学习的目标是通过对这些无标签样本的学习来揭示数据的内在特性及规律，其代表就是聚类。与监督学习相比，监督学习是按照给定的标准进行学习，而无监督学习则是按照数据的相对标准进行学习。但如果小时候没人教你区别猫

junjie0000 0喜欢 / 0评论 2019-03-29

数据库索引

根据数据库的功能，可以在数据库设计器中创建四种索引：普通索引、唯一索引、主键索引和聚集索引。这几种索引默认是btree索引。为任何列建立索引没有唯一等约束，正因为如此所以对之后的寻址有可能的相同索引情况有相对应的处理。

JohonMedison 0喜欢 / 0评论 2017-01-05

深入浅出谈数据挖掘——数据挖掘主要解决的四类问题

数据挖掘主要侧重解决四类问题：分类、聚类、关联、预测，而常规数据分析则侧重于解决除此之外的其他数据分析问题：如描述性统计、交叉报表、假设检验等。这是一个高度的归纳，数据挖掘的应用就是把这几类问题演绎的一个过程。训练的大概思路是这样的：对所有已经收集到的特征

Mrright00 0喜欢 / 0评论 2015-01-28

Cluster Analysis：聚类分析

Cluster analysis或者Clustering的任务是将对象集合分组，使其成为由类似的对象组成的多个类别的过程。Cluster分组的依据是对象数据的自身信息和对象数据之间的关系；分组目标是将当前Cluster中的数据跟其他簇中的数据最大程度上的区

gotea 0喜欢 / 0评论 2013-03-01

聚类分析（六）基于密度的聚类算法 — OPTICS

不显示的产生结果类簇，而是为聚类分析生成一个增广的簇排序，这个排序代表了各样本点基于密度。过该样本点不存在于结果队列中，则将其放入有序队列中，并按可达距离排序；的细微变化并不会影响到样本点的相对输出顺序，这对我们分析聚类结果是没有任何影响。相同的样本点集合

hiKirin 0喜欢 / 0评论 2012-12-28

聚类分析（三） K中心点算法（k-mediods）

算法，并列举了该算法的缺点。“噪声”敏感这个问题。对某类簇中所有的样本点维度求平均值，即获得该类簇质点的维度。当聚类的样本点中有“噪声”（离群点）时，在计算类簇质点的过程中会受到噪声异常维度的干扰，造成所得质点和实际质点位置偏差过大，从而使类簇发生“畸变”

gotea 0喜欢 / 0评论 2012-12-27

聚类分析（二） K-MEANS

算法属于划分方法中的一种。是利用距离来量化相似度的，所以我们这里可以理解为是“将它们指定到离最近最近距离的质心所属类簇”）。然后重新计算质心位置。以上过程不断反复，直到准则函数收敛为止。通常采用平方误差准则，定义如下：。代表的意思是所有类簇中各对象到其所属

Oudasheng 0喜欢 / 0评论 2012-12-27

CluStream算法

在需要进行聚类的时候，根据用户给的时间窗口参数在金字塔时间表中的快照中选取最接近的snapshot下的micro-cluster，根据这些micro-cluster使用改动的k-means方法对其进行聚类，最后，得到相应的聚类结果。

FJJackie 0喜欢 / 0评论 2016-12-09

lucene得到聚类的数量

EffortsRun 0喜欢 / 0评论 2014-04-22

数据挖掘之聚类分析学习笔记(3)

也就是说，它将数据划分为k 个组，同时满足如下的要求：每个组至少包含一个对象；每个对象必须属于且只属于一个组。注意在某些模糊划分技术中第二个要求可以放宽。这样的方法可以用来过滤“噪音”数据，发现任意形状的簇。它也基于标准的统计数字自动决定聚类的数目，考虑“

数据挖掘工人 0喜欢 / 0评论 2013-10-21

数据挖掘之聚类分析学习笔记(1)

聚类就是将数据对象分组成为多个类或簇，在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。相异度是基于描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析源于许多研究领域，包括数据挖掘，统计学，生物学，以及机器学习。将物理或抽象对象的

yousanfen 0喜欢 / 0评论 2013-10-21

半监督学习综述

在机器学习领域中，传统的学习方法有两种：监督学习和无监督学习。半监督学习是近年来模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注

nimeijian 0喜欢 / 0评论 2012-08-29

数据挖掘分类及常用算法

典型的无导师学习有发现学习、聚类、竞争学习等。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。分类规则、决策树、数学公式、神经网络等。决策树gini系数确定分裂属性。随机的选择一些种子点作为目前划分的簇的质心。

datongmuyile 0喜欢 / 0评论 2011-12-02

聚类与分类区别

分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。当前，聚类技术正在蓬勃发展，涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域，聚类分析已经成为数据挖

Nicolelovesmath 0喜欢 / 0评论 2011-12-12

千锋扣丁学堂大数据培训之大数据分析必备知识点总结

今天千锋扣丁学堂大数据培训老师给大家分享一篇关于大数据分析必备知识点总结，下面我们一起来看一下吧。

jiawoxuexi0 0喜欢 / 0评论 2019-07-12

根因分析初探：一种报警聚类算法在业务系统的落地实施

背景众所周知，日志是记录应用程序运行状态的一种重要工具，在业务服务中，日志更是十分重要。通常情况下，日志主要是记录关键执行点、程序执行错误时的现场信息等。系统出现故障时，运维人员一般先查看错误日志，定位故障原因。当业务流量小、逻辑复杂度低时，应用出现故障时

YUAN 0喜欢 / 0评论 2019-07-01

吴恩达机器学习笔记-非监督学习

聚类之前的课程中我们学习的都是监督学习相关的算法，现在来开始看非监督学习。非监督学习相对于监督非学习来看，其使用的是未标记的训练集而监督学习的是标记的训练集。其中一种可能的结构是，所有的数据可以大致地划分成两组，这种划分的算法称为聚类算法。在很多场景下我们

五小郎的学习笔记 0喜欢 / 0评论 2019-06-28

如何发现品牌潜客？目标人群优选算法模型及实践解析

本文主要对品牌目标人群优选算法及相关实践结论进行介绍。传统品牌营销的痛点在于效果无法量化和追踪，而阿里的产品和数据闭环可以很好的解决这个问题。

算法改变人生 0喜欢 / 0评论 2019-06-28

opencv python K-Means聚类

它们是type又有两种选择:. cv.TERM_CRITERIA_EPS+ cv.TERM_CRITERIA_MAX_ITER - 当满足上述任何条件时停止迭代。max_iter - 指定最大迭代次数的整数epsilon - 要求的准确性attempts：

zhongranxu 0喜欢 / 0评论 2019-06-28

R语言聚类分析：k-means和层次聚类

尽管我个人非常不喜欢人们被划分圈子，因为这样就有了歧视、偏见、排挤和矛盾，但“物以类聚，人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。前面所提到的机器学习算法主要都是分类和回归，这两类的应用场景都很清晰，就是对分类型变量或者数值型变量的预

JueryLee 0喜欢 / 0评论 2019-06-28

一个基于Mahout与hadoop的聚类搭建

mahout是基于hadoop的数据挖掘工具，因为有了hadoop，所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R，所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你，如何使用hadoop+mahout搭出一个简易的聚类工具。我使

Harper 0喜欢 / 0评论 2011-09-23

KernelML——一种广义机器学习算法

最近，我创造了一个自定义的“粒子优化算法”，并制作了一个叫做KernelML的Python包。优化算法通过简单机器学习和概率模拟的组合，使用损失函数、输入和输出矩阵以及随机采样器（可选）来寻找最优参数。目前，我在研究更多功能，希望项目最终能够开源。

yonezcy 0喜欢 / 0评论 2019-06-27