【Spark MLlib速成宝典】模型篇05决策树【Decision Tree】（Python版）

BitTigerio 2017-12-11

目录

决策树原理

决策树代码(Spark Python)

决策树原理

详见博文：http://www.cnblogs.com/itmorn/p/7918797.html

返回目录

决策树代码(Spark Python)

代码里数据：https://pan.baidu.com/s/1jHWKG4I 密码：acq1

# -*-coding=utf-8 -*-  
from pyspark import SparkConf, SparkContext
sc = SparkContext('local')

from pyspark.mllib.tree import DecisionTree, DecisionTreeModel
from pyspark.mllib.util import MLUtils

# Load and parse the data file into an RDD of LabeledPoint.
data = MLUtils.loadLibSVMFile(sc, 'data/mllib/sample_libsvm_data.txt')
'''
每一行使用以下格式表示一个标记的稀疏特征向量
label index1:value1 index2:value2 ...

tempFile.write(b"+1 1:1.0 3:2.0 5:3.0\\n-1\\n-1 2:4.0 4:5.0 6:6.0")
>>> tempFile.flush()
>>> examples = MLUtils.loadLibSVMFile(sc, tempFile.name).collect()
>>> tempFile.close()
>>> examples[0]
LabeledPoint(1.0, (6,[0,2,4],[1.0,2.0,3.0]))
>>> examples[1]
LabeledPoint(-1.0, (6,[],[]))
>>> examples[2]
LabeledPoint(-1.0, (6,[1,3,5],[4.0,5.0,6.0]))
'''
# Split the data into training and test sets (30% held out for testing) 分割数据集，留30%作为测试集
(trainingData, testData) = data.randomSplit([0.7, 0.3])

# Train a DecisionTree model. 训练决策树模型
#  Empty categoricalFeaturesInfo indicates all features are continuous. 空的categoricalFeaturesInfo意味着所有的特征都是连续的
model = DecisionTree.trainClassifier(trainingData, numClasses=2, categoricalFeaturesInfo={},
                                     impurity='gini', maxDepth=5, maxBins=32)

# Evaluate model on test instances and compute test error 预测和测试准确率
predictions = model.predict(testData.map(lambda x: x.features))
labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions)
testErr = labelsAndPredictions.filter(
    lambda lp: lp[0] != lp[1]).count() / float(testData.count())
print('Test Error = ' + str(testErr)) #Test Error = 0.04

# Save and load model  保存和加载模型
model.save(sc, "myDecisionTreeClassificationModel")
sameModel = DecisionTreeModel.load(sc, "myDecisionTreeClassificationModel")
print sameModel.predict(data.collect()[0].features) #0.0

返回目录

: BitTigerio

相关推荐

选择困难终结者：不同问题之下的机器学习算法

刚开始学习数据科学时，笔者经常面临这样一个问题：遇到具体问题，选择何种算法才合适。也许你也和我一样，搜了很多有关机器学习算法的文章，会看到许多详细的描述，却并没有减少让抉择的难度。问题陈述2：深挖客户统计数据用以识别模式。问题陈述12：根据车辆特性预估车辆

lwnylslwnyls 0喜欢 / 0评论 2020-11-06

用Python构建和可视化决策树

决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图，其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组，这样一个组中的每个元素都属于同一个类别。在这种情况下，树将进行拆分，使每个组的均方误差最小。决策树的

赶路人儿 0喜欢 / 0评论 2020-11-02

27场机器学习面试后，来划个概念重点吧

机器学习面试宝典，有这一本就够了。在机器学习和数据科学岗位的面试中，机器学习领域的概念是经常考察的内容。一位近期经过 27 次 AI 领域面试的开发者根据自己的面试实战经验撰写了一份机器学习资料。这份资料适用于机器学习初学者，包含机器学习中经典常用的基础概

lgblove 0喜欢 / 11评论 2020-10-26

啊哈，原来如此！4种流行的机器学习算法的顿悟时刻

我不了解这些机器学习算法。决策树使用水平线和垂直线划分要素空间。例如，考虑下面一个非常简单的决策树，该决策树具有一个条件节点和两个类节点，指示一个条件以及满足该条件的训练点将属于哪个类别。构造决策树以最小化熵。在每个步骤中，决策树算法都会尝试找到一种构建树

playoffs 0喜欢 / 10评论 2020-10-26

知道如何操作还不够！深入了解4大热门机器学习算法

本文转载自公众号“读芯术”。机器学习已然成为许多领域的大热词。但其实，真正了解机器学习的人还是少数，大多数人属于以下两个阵营：。不懂机器学习算法;知道算法是如何工作的，但不知道为什么会工作。因此，本文试图阐述算法的工作流程和内容，尽力直观地解释其中的工作原

Tips 0喜欢 / 0评论 2020-09-19

什么时候以及为什么基于树的模型可以超过神经网络模型？

基于树的模型和神经网络其实并没有太多的不同。神经网络通常被认为是机器学习的圣杯，无所不知，解决一切问题，主要是因为它们很复杂。虽然它们看起来如此不同，但它们只是一枚硬币的两面。任何Kaggler都知道XGBoost是到目前为止最受欢迎的最佳竞赛提交选择。决

zhaoyin 0喜欢 / 0评论 2020-09-16

机器学习算法的新女王——XGBoost

那天我不停地拉直领带，努力回忆起学过的所有东西，怀疑自己是否足够胜任工作。察觉到我的焦虑，老板微笑着说：。迟暮的女王已经退场,取而代之的是名字时髦、活力满满的新女王XGBoost。XGBoost是基于决策树的集成机器学习算法，使用了梯度提升框架。然而，当涉

mogigo00 0喜欢 / 0评论 2020-08-18

mooc机器学习第六天-K近邻，决策树，朴素贝叶斯分类器简单尝试

re=cross_val_score(clf,irls.data,irls.target,cv=10). A=np.array([[-1,-1],[-2,-1],[-3,-2],[2,1],[1,1],[3,2]]). [ 1. 0.93

zhaorui0 0喜欢 / 0评论 2020-06-28

决策树 {Keras 由浅入深}

决策树是基于区域的机器学习方法，是非线性的。构建决策树最重要的环节其实就是选择分类变量，分类变量的存在使得产生非线性解，决策树能够很好的解决非线性分类，但是树的生成的终止条件很难把握，并且由于生成的随机性，往往使得决策树过于敏感，容易发生过拟合。所以对于一

xiaoxiaokeke 0喜欢 / 0评论 2020-06-25

Python机器学习（十九）决策树之系列二—C4.5原理与代码实现

为了解决这个问题，C4.5就应运而生，它采用信息增益率来作为选择分支的准则。需要注意的是，增益率准则对可取值数目较少的属性有所偏好。所以一般这样选取划分属性：选择增益率最高的特征列作为划分属性的依据。#columnIndex = -1表示获取数据集每一项的

RememberMePlease 0喜欢 / 0评论 2020-06-17

数据挖掘--决策树复习

希望通过所给的训练数据学习一个贷款申请的决策树，用以对未来的贷款申请进行分类，即当新的客户提出贷款申请时，根据申请人的特征利用决策树决定是否批准贷款申请。比如，我们通过上述数据表得到两个可能的决策树，分别由两个不同特征的根结点构成。

挨T榕 0喜欢 / 0评论 2020-06-17

从零到部署，在线实现一个完整的机器学习任务(以美国居民收入预测为例)

本节我们将使用python机器学习库sklearn,以及web服务库tornado 来从零完成一个完整的机器学习任务流程。如果阅读起来有困难，建议您先学习了解这两门教程，相关基础教程地址：sklearn,tornado。在线预测测试: 打开{host0.h

ferriswym 0喜欢 / 0评论 2020-06-14

机器学习

　　全称为对数几率回归，其它文献也称为线性回归。　　本质是广义线性模型。通过sigmoid函数，将回归模型的预测值与分类的真实标记联系起来。　　多分类情况采用 OvO或者OvR策略解决。　　　　gini index 基尼指数 --CART决策树clas

CYJ0go 0喜欢 / 0评论 2020-06-13

【机器学习实战】－－第三章决策树

if currentLabel not in labelCounts.keys(): # 如果当前键值不在字典里，则扩展字典并将当前键值加入字典。labelCounts[currentLabel] += 1 # 每个键值都记录了当前类别出现的次数。pr

zhaorui0 0喜欢 / 0评论 2020-06-11

决策树算法-Python实现

决策树的剪枝，有两种策略，一种是预剪枝，一种是后剪枝，预剪枝可以通过限制树的高度，叶子节点个数，信息增益等进行，使得树边建立边剪枝，后剪枝通过增加损失项，使得树建立后，然后对不符合的叶子节点进行合并。达到减小树的要求，避免过拟合。Boosting 主要是通

dushine00 0喜欢 / 0评论 2020-06-09

机器学习——十大数据挖掘之一的决策树CART算法

今天是机器学习专题的第23篇文章，我们今天分享的内容是十大数据挖掘算法之一的CART算法。CART算法全称是Classification and regression tree，也就是分类回归树的意思。和之前介绍的ID3和C4.5一样，CART算法同样是决

henryzhihua 0喜欢 / 0评论 2020-06-06

机器学习实战基础（三十五）：随机森林（二）之 RandomForestClassi?er 之重要参数

随机森林是非常具有代表性的Bagging集成算法，它的所有基评估器都是决策树，分类树组成的森林就叫做随机森林分类器，回归树所集成的森林就叫做随机森林回归器。这一节主要讲解RandomForestClassi?er，随机森林分类器。这些参数在随机森林中的含义

卖小孩的咖啡 0喜欢 / 0评论 2020-06-02

机器学习实战基础（二十八）：决策树（一）概述

决策树是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则，并用树状图的结构来呈现这些规则，以解决分类和回归问题。决策树算法容易理解，适用各种数据，在解决各种问题时都有良好表现，尤其是以树模型为核心的各种集成算法，在各个行业和领域

PeterHuang0 0喜欢 / 0评论 2020-06-02

了解AI背后的引擎，4个技术爱好者应该知道的机器学习算法

人工智能正在做不可思议的事情-驾驶汽车，调酒，打仗-但是，尽管机器人面具受到了沉重的关注和关注，但任何真正的技术爱好者都知道基本的机器学习算法，这些算法可以移动并控制可实现惊人成就的机器人技术。有四种主要的机器学习算法-决策树，随机森林，支持向量机和神经网

duyifei0 0喜欢 / 0评论 2020-05-28

神经网络？决策树？都做不到！谁能解决可解释性AI？

来自IEEE研究员Cuntai Guan这样认为：“许多机器决策仍然没有得到很好的理解”。大多数论文甚至提出在准确性和可解释性之间进行严格区分。神经网络是准确的，但无法解释;在计算机视觉中，决策树是可解释的，但不准确。这意味着金融和医学等应用领域的从业者

WFRainn 0喜欢 / 0评论 2020-05-14

卷积神经网络模型可解释性

缺乏可解释性仍然是在许多应用中采用深层模型的一个关键障碍。在这项工作中，明确地调整了深层模型，这样人类用户可以在很短的时间内完成他们预测背后的过程。具体地说，训练了深度时间序列模型，使得类概率预测具有较高的精度，同时被节点较少的决策树紧密地建模。使用直观的

wenxuegeng 0喜欢 / 0评论 2020-05-04

随机森林算法学习(RandomForest)

随机森林算法学习最近在做kaggle的时候，发现随机森林这个算法在分类问题上效果十分的好，大多数情况下效果远要比svm，log回归，knn等算法效果好。因此想琢磨琢磨这个算法的原理。要学随机森林，首先先简单介绍一下集成学习方法和决策树算法。下文仅对该两种方

Happyunlimited 0喜欢 / 0评论 2020-04-30

决策树的复兴？结合神经网络，提升ImageNet分类准确率且可解释

鱼和熊掌我都要！BAIR公布神经支持决策树新研究，兼顾准确率与可解释性。然而，深度神经网络缺乏可解释性也是出了名的，这就带来了一种矛盾。决策树是一种用于分类的经典机器学习方法，它易于理解且可解释性强，能够在中等规模数据上以低难度获得较好的模型。之前很火的微

WhiteHacker 0喜欢 / 0评论 2020-04-26

机器学习及应用

机器学习是一类算法的总称，这些算法企图从大量历史数据中挖掘出其中隐含的规律，并用于预测或者分类，更具体的说，机器学习可以看作是寻找一个函数，输入是样本数据，输出是期望的结果，只是这个函数过于复杂，以至于不太方便形式化表达。需要注意的是，机器学习的目标是使学

kingzone 0喜欢 / 0评论 2020-04-21

监督学习方法

感知机是根据输入实例的特征向量\(x\)对其进行二类分类的线性分类模型：\，感知机模型对应于输入空间中的分离超平面\。损失函数对应于误分类点到分离超平面的总距离。当训练数据集线性可分时，感知机学习算法存在无穷多个解，其解由于不同的初值或不同的迭代顺序而可能

蜗牛慢爬的李成广 0喜欢 / 0评论 2020-04-10

Spark Random Forest classifier 随机森林分类

随机森林是决策树的集合。随机森林是用于分类和回归的最成功的机器学习模型之一。他们结合了许多决策树，以减少过度拟合的风险。像决策树一样，随机森林处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。spark.mllib支持使用连续

xclxcl 0喜欢 / 0评论 2020-03-04

Spark DecisionTreeClassifier

决策树被广泛使用，因为它们易于解释，处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。树集分类算法在分类和回归任务中表现最佳。spark.ml实现使用连续和分类特征，支持用于二元分类和多类分类以及用于回归的决策树。该实现按行对

香帅 0喜欢 / 0评论 2020-03-03

请别再把深度学习与机器学习混为一谈了！

机器学习算法通常分为：监督和非监督两种。监督式机器学习又可以进一步被分为：分类和回归。无监督学习则可以进一步分为：聚类、关联、以及降维。它需要在两个或多个类之间进行选择，并最终为每一个类分配概率。显然，在回归和分类的机器学习算法之间有一定的重叠度。聚类问题

sayhaha 0喜欢 / 0评论 2020-02-05

「数据挖掘入门系列」数据挖掘模型之分类和预测 - 逻辑回归

如果基于商品的历史销售情况，以及节假日、气候、竞争对手等影响因素，对商品的销量进行趋势预测？除此之外，运营部门需要通过数据分析来了解具有某些特征的客户的消费习惯，管理人员希望了解下一个月的销售收入等，这些都是分类与预测的日志。分类和预测是预测问题的两种主要

chognzhihongseu 0喜欢 / 0评论 2020-01-30

五分钟了解机器学习十大算法

本文为有志于成为数据科学家或对此感兴趣的读者们介绍最流行的机器学习算法。机器学习是该行业的一个创新且重要的领域。我们为机器学习程序选择的算法类型，取决于我们想要实现的目标。今天，我们将简要介绍 10 种最流行的机器学习算法，这样你就可以适应这个激动人心的机

ScarlettYellow 0喜欢 / 0评论 2020-01-02

回溯算法详解[力扣46:全排列]

解决一个回溯问题，实际上就是一个决策树的遍历过程。你只需要思考 3 个问题：。如果你不理解这三个词语的解释，没关系，我们后面会用「全排列」和「N 皇后问题」这两个经典的回溯算法问题来帮你理解这些词语是什么意思，现在你先留着印象。

yishujixiaoxiao 0喜欢 / 0评论 2019-12-30

机器学习模型的时间复杂度

时间复杂度可以看作是机器学习算法针对输入大小执行速度的快慢的度量。空间复杂度可以看作是执行机器学习算法所需的额外内存量。机器学习算法/机器学习模型的复杂性通常使用大O表示法表示，大O表示法定义了算法的上限，它仅从上方限制函数。称函数T以f为界或者称T受限于

CYJ0go 0喜欢 / 0评论 2019-12-23

吴裕雄--天生自然python机器学习：决策树算法

我们经常使用决策树处理分类问题’近来的调查表明决策树也是最经常使用的数据挖掘算法。决策树很多任务都是为了数据中所蕴含的知识信息，因此决策树可以使用不熟悉的数据集合，并从中提取出一系列。规则，机器学习算法最终将使用这些机器从数据集中创造的规则。专家系统中经

kingzone 0喜欢 / 0评论 2019-12-14

零基础的程序员们，关于大数据挖掘的知识点，都在这里了

下面是一些关于大数据挖掘的知识点，今天和大家一起来学习一下。

nimeijian 0喜欢 / 0评论 2019-12-05

SIGAI机器学习第六集决策树

讲授决策树的基本概念，分类与回归树的原理，决策树的表示能力，决策树的训练算法，寻找最佳分裂的原理，叶子节点值的标记，属性缺失与替代分裂，决策树的剪枝算法，决策树应用。非常直观和易于理解的机器学习算法，最符合人的直观思维，因为生活中很多时候做决策就是用这种

playoffs 0喜欢 / 0评论 2019-11-13

机器学习之决策树算法

决策树是一种常用的有监督算法。决策树算法有很多类型，其中最大的差别就是最优特征选择的方法不同。最优特征指的是，在每个结点处，如何选择最好的特征（属性）对样本进行分类，这里最佳的意义即经过这步划分，能使分类精度最好，直到这棵树能准确分类所有训练样本。通常

seekerhit 0喜欢 / 0评论 2019-11-07

机器学习总结（算法）：聚类、决策树、能量模型、LSTM等

KNN找到k个最近邻，利用它们的标签进行预测。例如，下面的黑点应该通过简单多数投票被分类为蓝色。有不同的指标来衡量距离。最常见的是欧氏距离。通常，如果我们在进行预测时增加k的数量，则偏差会增加，而方差降低。对质心进行重新估计，对数据点进行重新聚类。使用中位

cckchina 0喜欢 / 0评论 2019-09-23

提升树之Adaboost算法的介绍

提升树算法与线性回归模型的思想类似，所不同的是该算法实现了多棵基础决策树??)的加权运算，最具代表的提升树为AdaBoost算法，即。对于Adaboost算法而言，每一棵基础决策树都是基于前一棵基础决策树的分类结果对样本点设置不同的权重，如果在前一棵基础决

seekerhit 0喜欢 / 0评论 2019-10-31

计算机科学基础_11 - 智能

计算机很擅长存放，整理，获取和处理大量数据。很合适有上百万商品的电商网站，或是存几十亿条健康记录，方便查看。机器学习算法让计算机可以从数据中学习，然后自行作出预测和决定。虽然有用，但不会说它有人类一般的智能。机器学习和人工智能算法一般都很复杂，说一说概念。

qiujiahao 0喜欢 / 0评论 2019-09-08

决策树的数学原理

说到决策树，大家肯定不陌生，由于其结构简单，学习成本低，且可解释性强，有着广泛的应用。因此各类书籍、技术博客都有介绍，且深入浅出、图文并茂、生动形象。鉴于已经有很多带图的博客介绍决策树，这里就不上图了，主要以公式推导为主。随后本文会对决策树的数学原理做详尽

aqua0 0喜欢 / 0评论 2016-04-11

机器学习中Bagging和Boosting的区别

Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来，形成一个性能更加强大的分类器，更准确的说这是一种分类算法的组装方法。即将弱分类器组装成强分类器的方法。首先介绍Bootstraping，即自助法：它是一种有放回的抽样方法。每轮

MacTrack 0喜欢 / 0评论 2017-09-20

【机器学习的五大流派与九种常见算法】

模式识别、机器学习和深度学习代表三种不同的思想流派。模式识别是最古老的。机器学习是最基础的。深度学习是非常崭新和有影响力的前沿领域，我们甚至不会去思考后深度学习时代。1）机器学习就像是一个真正的冠军一样持续昂首而上；2）模式识别一开始主要是作为机器学习的代

andersonxie 0喜欢 / 0评论 2017-07-13

大数据挖掘视频教程入门到精通

本课程名为深入浅出数据挖掘技术。所谓“深入”，指得是从数据挖掘的原理与经典算法入手。其一是要了解算法，知道什么场景应当应用什么样的方法；其二是学习算法的经典思想，可以将它应用到其他的实际项目之中；其三是理解算法，让数据挖掘的算法能够应用到您的项目开发之中去

chenhui 0喜欢 / 0评论 2013-10-25

数据挖掘分类及常用算法

典型的无导师学习有发现学习、聚类、竞争学习等。典型的结构化学习有神经网络学习、统计学习、决策树学习、规则学习。分类规则、决策树、数学公式、神经网络等。决策树gini系数确定分裂属性。随机的选择一些种子点作为目前划分的簇的质心。

datongmuyile 0喜欢 / 0评论 2011-12-02

文本分类的备忘录（转）

目前看到的比较全面的分类算法,总结的还不错.构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别。

晴日峰 0喜欢 / 0评论 2011-04-18

千锋扣丁学堂大数据培训之大数据分析必备知识点总结

今天千锋扣丁学堂大数据培训老师给大家分享一篇关于大数据分析必备知识点总结，下面我们一起来看一下吧。

jiawoxuexi0 0喜欢 / 0评论 2019-07-12

sklearn中的数据预处理和特征工程

小伙伴们大家好~o(￣▽￣)ブ，我是菜菜，我的开发环境是Jupyter lab，所用的库和版本大家参考：。2 数据预处理 Preprocessing & Impute2.1 数据无量纲化在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规

hualalalalali 0喜欢 / 0评论 2019-07-01

数据挖掘的五大流程之数据预处理&特征工程

想象一下未来美好的一天，你学完了菜菜的课程，成为一个精通各种算法和调参调库的数据挖掘工程师了。某一天你从你的同事，一位药物研究人员那里，得到了一份病人临床表现的数据。药物研究人员用前四列数据预测一下最后一数据，还说他要出差几天，可能没办法和你一起研究数据了

ZweixunSJTU 0喜欢 / 0评论 2019-07-01

Brett Lantz在R中使用C5.0算法实现决策树

决策树学习者是强大的分类器，它利用树结构来模拟特征和潜在结果之间的关系。以同样的方式，决策树分类器使用分支决策的结构，其将示例引导到最终预测的类值。决策树有很多实现，但最著名的是C5.0算法。决策树模型通常偏向于具有大量级别的特征的分裂。选择最佳分割决策树

wuxiaosi0 0喜欢 / 0评论 2019-07-01

机器学习A-Z～决策树与随机森林

决策树有的人可能听过一个词：CART，这个代表的意思是Classification And Regression Tree。它是一个分类和回归的决策树。它被分为两类，一类是分类决策树，另一个类是回归决策树。对于分类决策树，一般来说用于一些分类离散的数据，比

yukyinbaby 0喜欢 / 0评论 2019-07-01