1.2：无监督学习导学

playoffs 2020-02-02

无监督学习的目标：

利用无标签的数据学习数据的分部或数据与数据之间的关系被称作无监督学习。

无监督学习最常应用的场景是聚类和降维。

聚类（sklearn.cluster模块）

定义

聚类(clustering)，就是根据数据的“相似性”将数据分为多类的过程。
评估两个不同样本之间的“相似性” ，通常使用的方法就是计算两个样本之间的“距离”。使用不同的方法计算样本间的距离会关系到聚类结果的好坏。
什么样的数据是相似的，如何定义相似性，是很多机器学习任务的基本问题。

常用距离计算方法

1.2：无监督学习导学 ?

1.2：无监督学习导学 ?

1.2：无监督学习导学

s:协方差矩阵

马氏距离：红黑>绿黑

欧氏距离：红黑<绿

1.2：无监督学习导学

sklearn.cluster模块输入数据形式

标准数据输入格式:[样本个数，特征个数]定义的矩阵形式。

相似性矩阵输入格式：即由[样本数目，样本数目]定义的矩阵形式，矩阵中

的每一个元素为两个样本的相似度，如DBSCAN， AffinityPropagation(近邻传

播算法)接受这种输入。如果以余弦相似度为例，则对角线元素全为1. 矩阵中每

个元素的取值范围为[0,1]

1.2：无监督学习导学

降维（sklearn.decomposition模块）

定义

降维，就是在保证数据所具有的代表性特性或者分布的情况下，将高维数据转化为低维数据的过程。

目的：

数据的可视化
精简数据（提高其它机器学习算法效率）

聚类 vs.降维

聚类和降维都是无监督学习的典型任务，任务之间存在关联，比如某些高维数据的聚类可以通过降维处理更好的获得，另外学界研究也表明代表性的聚类算法如k-means与降维算法如NMF之间存在等价性。

sklearn vs.降维

降维是机器学习领域的一个重要研究内容，有很多被工业界和学术界接受的典型算法，截止到目前sklearn库提供7种降维算法。
降维过程也可以被理解为对数据集的组成成份进行分解（decomposition）的过程，因此sklearn为降维模块命名为decomposition, 在对降维算法调用需要使用sklearn.decomposition模块

1.2：无监督学习导学

: playoffs

相关推荐

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 0喜欢 / 5评论 2020-11-11

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

在近期举行的第 43 届国际信息检索年会上，Geoffrey Hinton 做了主题为《The Next Generation of Neural Networks》的报告。Geoffrey Hinton 是谷歌副总裁、工程研究员，也是 Vector

白飞飞Alan 0喜欢 / 0评论 2020-07-29

有了K均值聚类，为什么还需要DBSCAN聚类算法？

聚类本文转载自公众号“读芯术”分析是一种无监督学习法，它将数据点分离成若干个特定的群或组，使得在某种意义上同一组中的数据点具有相似的性质，不同组中的数据点具有不同的性质。聚类分析包括基于不同距离度量的多种不同方法。2014年，DBSCAN算法在领先的数据挖

只能做防骑 0喜欢 / 0评论 2020-05-13

无监督、弱监督、半监督、强化、多示例学习是什么

什么是监督学习、无监督学习、强化学习、弱监督学习、半监督学习、多示例学习？随着机器学习问题不断深入人心，人们也将现实中遇到不同的问题分为不同的学习方式，其中，最基础的应属监督学习，无监督学习和强化学习了。

83153251 0喜欢 / 0评论 2020-02-14

【机器学习】机器学习入门08 - 聚类与聚类算法K-Means

时间过得很快，这篇文章已经是机器学习入门系列的最后一篇了。短短八周的时间里，虽然对机器学习并没有太多应用和熟悉的机会，但对于机器学习一些基本概念已经差不多有了一个提纲挈领的了解，如分类和回归，损失函数，以及一些简单的算法——kNN算法、决策树算法等。那么，

清溪算法 0喜欢 / 0评论 2019-12-23

无监督学习和监督学习的区别

监督学习的训练集不仅要有输入还要有输出，即目标特征和目标结果，特征就是训练集中数据特有的，结果是人为标记的。

kingzone 0喜欢 / 0评论 2019-12-14

使用高斯混合模型，让聚类更好更精确（附数据&代码&学习资源）

本文约3500字，建议阅读10+分钟。本文简单介绍聚类的基础知识，包括快速回顾K-means算法，然后深入研究高斯混合模型的概念，并用Python实现。无监督学习中最流行的技术之一是聚类，这通常我们在早期学习机器学习时学习的概念，而且很容易掌握。我相信你已

moshlwx 0喜欢 / 0评论 2019-11-15

要隐私还是要智能？无监督学习能带来二者的统一吗？

获取用户数据的方式即将被改变，数据“多即是好”的时代终将过去，用尽可能少的数据构建性能更好的模型才是大势所趋。如果没有无监督学习，机器学习模型会逐个分析用户数据以预测其行为，这不仅过多地暴露了个体用户信息而且会到导致学习任务极其繁重。金融从业人员立即意识到

dingyanming 0喜欢 / 0评论 2019-11-15

干货 | 全面理解无监督学习基础知识

无监督学习的特点是，模型学习的数据没有标签，因此无监督学习的目标是通过对这些无标签样本的学习来揭示数据的内在特性及规律，其代表就是聚类。与监督学习相比，监督学习是按照给定的标准进行学习，而无监督学习则是按照数据的相对标准进行学习。但如果小时候没人教你区别猫

junjie0000 0喜欢 / 0评论 2019-03-29

GAN用于无监督表征学习，效果依然惊人……

无所不能的 GAN 又攻占了一个山头。近年来，GAN 在图像合成领域取得了惊人的成果，例如先前 DeepMind 提出的 BigGAN。近日，DeepMind 提出全新的 BigBiGAN，引起了社区极大的关注。该论文提出的方法建立在 SOTA 模型 Bi

duyue0 0喜欢 / 0评论 2019-07-09

GAN用于无监督表征学习，效果依然惊人……

无所不能的 GAN 又攻占了一个山头。近年来，GAN 在图像合成领域取得了惊人的成果，例如先前 DeepMind 提出的 BigGAN。近日，DeepMind 提出全新的 BigBiGAN，引起了社区极大的关注。该论文提出的方法建立在 SOTA 模型 B

人家 0喜欢 / 0评论 2019-07-10

BigBiGAN问世，“GAN父”都说酷的无监督表示学习模型有多优秀？

尽管基于GAN的无监督学习方法取得了初步成果，但很快被自监督学习方法所取代。DeepMind近日发布了一篇论文《Large Scale Adversarial Representation Learning》，提出了无监督表示学习新模型BigBiGAN。作

guangmang 0喜欢 / 0评论 2019-07-09

1.ML笔记——定义、监督学习和无监督学习的定义

Arther Samuel:Machine Learning:Field fo study that gives computers the ability to learn without being explicitly programmed.Tom

五小郎的学习笔记 0喜欢 / 0评论 2019-06-30

Python数据挖掘与机器学习，快速掌握聚类算法和关联分析

聚类方法应在怎样的场景下使用？如何使用关联分析算法解决个性化推荐问题？本文就为大家揭晓答案。本次直播视频精彩回顾，戳这里！以下内容根据演讲嘉宾视频分享以及PPT整理而成。

ZweixunSJTU 0喜欢 / 0评论 2019-06-27

来一波回忆杀，用精灵宝可梦教你弄懂无监督学习

算法是如何学习《精灵宝可梦》，哪些不值得获得你的高级球在我写了一篇关于《权力的游戏》的文章之后发给我母亲，但是她看不懂，问我是否可以写一篇关于精灵宝可梦的文章不？于是，在本周在我项目训练的最后一周决定开始研究什么内容，于是，我开始搜索关于它的数据集。由此，

自然语言处理技术 0喜欢 / 0评论 2019-06-19

拥有解耦表征无监督学习是不可能的！硬核ICML 2019最佳论文出炉

机器学习顶级会议ICML 2019已于6月9日在美国加州开幕。本届大会共收到3424篇论文投稿，其中774篇被接收。今日，大会放出了最佳论文。今年有两支团队收获了最佳论文的奖项，来自剑桥大学、科技公司 PROWLER.io 的《Rates of Conve

Sigh 0喜欢 / 0评论 2019-06-12

一个完整的K-means聚类算法指南！

假设您想根据内容和主题对数百（或数千）个文档进行分类，或者您希望出于某种原因将不同的图像组合在一起。目标是获得尽可能相似的同一组中的数据点，并使不同组中的数据点尽可能不相似。K-means非常适合探索性分析，非常适合了解您的数据并提供几乎所有数据类型的见解

风吹夏天 0喜欢 / 0评论 2019-05-21

机器学习系列 1：监督学习和无监督学习

机器学习就是通过一大堆数据集训练一个电脑程序让他能够去更加准确地预测出下一次的结果。机器学习算法分为两大类，监督学习和无监督学习。监督学习又分为两类，「回归问题」和「分类问题」。判断一封邮件是否为垃圾邮件的过程就是解决「分类问题」的过程。「回归问题」与「分

weijinqian0 0喜欢 / 0评论 2019-05-15

语义表征的无监督对比学习：一个新理论框架

诸如图像、文本、视频等复杂数据类型的语义表征已成为机器学习的核心问题，并在机器翻译、语言模型、GAN、域迁移等领域中出现。这些都会涉及学习表征函数，即每个数据点的表征信息都是“高级别” 和“紧凑“ (低维)。衡量语义表征好坏的一个标准是，它能够通过少

FZUrxd 0喜欢 / 0评论 2019-03-29

李航《统计学习方法》第二版：6年耕耘增加无监督学习

本书从监督学习和无监督学习两大块出发，带你一步步掌握传统机器学习概念。[ 导读 ]统计学习即机器学习，是计算机及其应用领域的一门重要学科。此前，李航老师完成的《统计学习方法》是了解机器学习最好的教材之一，该书从 2005 年开始写作一直到 2012 年完成

小白将 0喜欢 / 0评论 2019-05-13

轻松看懂机器学习！3个案例详解聚类、回归、分类算法

机器是怎样学习的，都学到了什么？人类又是怎样教会机器学习的？本文通过案例给你讲清楚各类算法的原理和应用。机器学习，一言以蔽之就是人类定义一定的计算机算法，让计算机根据输入的样本和一些人类的干预来总结和归纳其特征和特点，并用这些特征和特点和一定的学习目标形成

小白将 0喜欢 / 0评论 2018-08-20

ML：教你聚类并构建学习模型处理数据（附数据集）

本文以Ames住房数据集为例，对数据进行聚类，并构建回归模型。本文将根据41个描述性分类特征的维度，运用无监督主成分分析和层次聚类方法对观测进行分组。通过列举38个连续数值变量的所有双变量排列组合并分别拟合线性回归模型，我们选出了两个对销售价格预测能力最强

Moxiaoaijing 0喜欢 / 0评论 2018-04-05

苹果机器学习博客解读CVPR论文：通过对抗训练从模拟的和无监督的图像中学习

苹果公司通过试验证明，使用细化后的图像进行训练可以大幅提高多种机器学习任务中模型的准确度。为了克服这种缺陷，他们制定了一种细化合成图像的方法，用以提高图像的真实度。在AI科技大本营微信公众号会话中回复“苹果”，下载苹果《Learning from Simu

yyHaker 0喜欢 / 0评论 2017-07-20

CVPR 2018：商汤科技提出GeoNet：用无监督学习感知3D场景几何

有效的无监督学习方法能缓解对有标注数据的需求，无监督学习技术与视觉感知领域的结合也有助于推动自动驾驶等高价值技术的发展。近日，商汤科技的一篇 CVPR 2018 论文提出了一种可以联合学习深度、光流和相机姿态的无监督学习框架 GeoNet，其表现超越了之前

timcompp 0喜欢 / 0评论 2018-03-25

人人都能读懂的无监督学习：什么是聚类和降维？

可以说机器学习已经成为了改变时代的大事，一时间似乎人人都应该懂一点机器学习。但机器学习涉及到的数学知识和编程能力往往让没有相关经验的人望而却步。YupTechnologies 机器学习专家 Vishal Maini 近日在 Medium 上发布了一个介绍机

dujiahaogod 0喜欢 / 0评论 2017-08-31

无监督学习中的两个非概率模型：稀疏编码与自编码器

「无监督学习」现在已经成为深度学习领域的热点。最近，在德国的图宾根，机器学习夏训营正在如火如荼地进行，其中来自 CMU 的 Ruslan Salakhutdinov 教授就带来了很多关于「无监督学习」的精彩内容。今天机器之心给大家分享的正是其课件中有关「无

timcompp 0喜欢 / 0评论 2017-07-02

无监督学习简介：了解主成分分析（PCA）和聚类方法

无监督学习是一组统计工具，用于只有一组特征而没有目标的情景。因此，我们无法进行预测，因为每个观察都没有相关的响应。我们感兴趣的是找到一种有趣的方法来可视化数据或发现类似观察的子组。此外，很难评估获得的结果是否良好，因为没有公认的机制来对独立机器学习数据集执

CYJ0go 0喜欢 / 0评论 2019-01-29

K均值聚类知识点大全：算法、应用、评估方法和缺点

聚类是一种最常用的探索性数据分析技术，用于直观地了解数据的结构。换句话说，我们试图在数据中找到同质的子组，使得每个聚类中的数据点根据相似性度量尽可能相似。决定使用哪种相似性度量是特定于应用程序的。与监督学习不同，聚类被认为是一种无监督学习方法，因为我们不具

ustbfym 0喜欢 / 0评论 2018-09-19

GMIS 2017大会邓力演讲：无监督学习的最新进展

全球机器智能峰会，是全球人工智能产业信息服务平台机器之心举办的首届大会，邀请了来自美国、欧洲、加拿大及国内的众多顶级专家参会演讲。本次大会共计 47 位嘉宾、5 个Session、32 场演讲、4 场圆桌论坛、1 场人机大战，兼顾学界与产业、科技巨头与创业

lengzhao 0喜欢 / 0评论 2017-05-27

Bengio TED演讲：无监督学习是深度学习突破的关键

在 2016 年 9 月 24 日举办的 TEDxMontreal 2016 上，深度学习领域的著名学者 Yoshua Bengio 发表了主题为《使用深度学习的人工智能的崛起》的演讲。近日，TEDx Talks 官方在 YouTube 上发布了该演讲的视

manyouxianfeng 0喜欢 / 0评论 2017-05-21

从自编码器到生成对抗网络：一文纵览无监督学习研究现状

无监督学习是深度学习的圣杯。它的目的是希望能够用极少量且不需要标注的数据训练通用系统。如今深度学习模型都需要在大规模的监督数据集上训练。没错，我们的确受到了一些监督，但是当你的父母告诉你这是一只「猫」之后，他们不会在日后的生活中每一次观察到猫时都告诉你这是

zombee0 0喜欢 / 0评论 2017-05-06

小白福音：带你读懂无监督学习！

无监督学习实际上是一种从数据中挖掘"灵感"的模式查找技术。它可能听起来像表达"让孩子们自己学会不要接触烤箱"这样一种奇特的事情。其实无监督学习与无人监督的机器无关，而是一种可以形成自己对事物的看法的模式。让我们一起来

ximingri 0喜欢 / 0评论 2018-08-14

「Science重磅」DeepMind生成查询网络GQN，无监督学习展现3D场景

DeepMind今天在Science发表论文，提出生成查询网络，能够在无监督的情况下，抽象地描述场景元素，并通过“想象”渲染出场景中没有见到的部分。这项工作展示了没有人类标签或领域知识的表示学习，为机器自动学习并理解周围世界铺平了道路。表示网络将agent

zxyscz 0喜欢 / 0评论 2018-06-15

OpenAI最新研究：通过无监督学习提高语言理解能力

基于一个可伸缩的、任务无关的系统，OpenAI在一组包含不同的语言任务中获得了最优的实验结果，方法是两种现有理念的结合：迁移学习和无监督的预训练。这些结果证明了有监督的学习方法可以与无监督的预训练进行完美的结合。这个想法许多人在过去探索过，OpenAI希望

87173653 0喜欢 / 0评论 2018-06-12

论文Express｜谷歌大脑：基于元学习的无监督学习更新规则

无监督学习的一个主要目的是为了获得对后续任务有用的数据分布，从而避免在有监督训练过程中需要对数据进行标注的繁琐步骤。本文提出了基于元学习的无监督学习更新规则，利用元学习技术对无监督权重的更新规则进行学习，在针对小样本分类任务上表现良好。

一条鱼 0喜欢 / 0评论 2018-05-03

机器学习：Python实现K-MEANS聚集

k-means聚类是一种矢量量化方法，最初来源于信号处理，在数据挖掘中被广泛应用于聚类分析。k-means聚类的目的是将n个观测值划分为k个观测值，每个观测值都属于最接近均值的聚类，作为聚类的原型。这导致将数据空间划分为Voronoi单元。该算法与k最近邻

bamboocqh 0喜欢 / 0评论 2018-09-02

无监督学习简介

到目前为止，我们主要关心监督机器学习，这是目前最实用的应用领域。逻辑回归是所有分类技术的“母亲”。话虽如此，这是无人监督的机器学习，它承载着对未来的承诺。因为获取数据很便宜，它正被标记相对较难的数据。在这篇文章中，我们将介绍常见的无监督机器学习算法和技术。

一条鱼 0喜欢 / 0评论 2018-04-28

机器学习笔记：监督学习与无监督学习

在机器学习领域，有两种主要类型的任务：监督式和无监督式。这两种类型的主要区别在于，监督式学习是使用基础事实完成的，或者换句话说，我们事先知道样本的输出值应该是多少。在回归和分类中，目标都是找到输入数据中的特定关系或结构，以便我们有效地生成正确的输出数据。嘈

自然语言处理技术 0喜欢 / 0评论 2018-03-23

无监督学习新研究简单的图像旋转预测，为特征学习提供强监督信号

在论文中，研究人员训练卷积神经网络来识别被应用到作为输入的图像上的二维旋转。从定性和定量两方面证明，这个看似简单的任务实际上为语义特征学习提供了非常强大的监督信号。更具体地说，首先，我们定义了一组离散的几何变换，然后将这些几何变换中的每一个应用于数据集上的

bestrivern 0喜欢 / 0评论 2018-03-27

K均值聚类-机器学习算法简介和Python实现

在机器学习中，我们并不总是被提供一个目标来优化，我们也不总是被提供一个目标标签来分类输入数据点。在人工智能领域，没有目标或标签来分类的问题被称为无监督学习问题。在无监督学习问题中，我们试图对数据中潜在的结构化信息进行建模。聚类是一种非监督学习问题，我们试图

stevenkwong 0喜欢 / 0评论 2018-06-10

无监督学习：决策树AI异常检测

从表面上看，这是一种非常有趣的决策树方法，但在实践中是现代入侵检测技术的主干。最近作者正在做一个关于流处理的演示，但是介绍的用例是关于异常检测的。事实证明，如果你设涉及到异常检测，无监督的决策树是相当普遍的。此外，该系统的目的是每24小时收集一个新的数据集

ximingri 0喜欢 / 0评论 2018-01-16

用Python进行无监督学习的几种最热门的聚类算法

无监督学习是机器学习技术中的一类，用于发现数据中的模式。本文介绍用Python进行无监督学习的几种聚类算法，包括K-Means聚类、分层聚类、t-SNE聚类、DBSCAN聚类等。无监督算法的数据没有标注，这意味着只提供输入变量，没有相应的输出变量。Face

kingzone 0喜欢 / 0评论 2019-01-04

用Python进行无监督学习

无监督学习是一类机器学习技术，用于查找数据中的模式。给无监督算法的数据没有标记，这意味着只有输入变量没有相应的输出变量。在无监督学习中，算法留给自己去发现数据中有趣的结构。左边的图像是监督式学习的例子; 我们使用回归技术来找出特征之间的最佳拟合线。为无监督

zupzng 0喜欢 / 0评论 2018-05-12

基于聚类的无监督学习

无监督机器学习是机器学习任务，推断用“未标记”数据描述隐藏结构的功能。K均值最常见和最简单的聚类算法就是K-Means聚类。该算法然后迭代地移动k中心并选择最接近该群集中的质心的数据点。可能想到的一个明显问题是选择K值的方法。这是通过使用弯曲曲线完成的，其

kunlong00 0喜欢 / 0评论 2018-04-08

数据挖掘在精准营销中的应用

精准营销就是在精准定位的基础上，依托现代信息技术手段建立个性化的顾客沟通服务体系，实现企业可度量的低成本扩张之路，是有态度的网络营销理念中的核心观点之一。前者是找目标用户，后者是为用户推荐产品，两者是类似的。我们可以利用数据挖掘技术对顾客的购买行为和历史的

YeChao 0喜欢 / 0评论 2016-05-23

轻松看懂机器学习！3个案例详解聚类、回归、分类算法

机器是怎样学习的，都学到了什么？人类又是怎样教会机器学习的？本文通过案例给你讲清楚各类算法的原理和应用。机器学习，一言以蔽之就是人类定义一定的计算机算法，让计算机根据输入的样本和一些人类的干预来总结和归纳其特征和特点，并用这些特征和特点和一定的学习目标形成

FlyLeo 0喜欢 / 0评论 2018-08-31

破解人类识别文字之谜，对图像中的字母进行无监督学习

Nature 子刊 Nature Human Behavior 上最新发表了一篇关于人类行为的研究，通过对自然图像中的字母进行无监督学习，探讨了人类是如何获得文字识别能力的。研究人员提出了一个基于深度神经网络的大规模字母识别计算模型，通过将概率生成模型与

wjschaoren 0喜欢 / 0评论 2017-08-29

一文读懂监督学习、无监督学习、半监督学习、强化学习这四种深度学习方式

一般说来，训练深度学习网络的方式主要有四种：监督、无监督、半监督和强化学习。在接下来的文章中，计算机视觉战队将逐个解释这些方法背后所蕴含的理论知识。除此之外，计算机视觉战队将分享文献中经常碰到的术语，并提供与数学相关的更多资源。监督学习监督学习是使用已知正

comwayLi 0喜欢 / 0评论 2017-06-12