kaggle神器：教你简单部署XGBoost

itaquestion 2018-07-19

点击上方关注，All in AI中国

XGBoost现在是用于结构化数据的领先机器学习算法之一。它在众多的kaggle竞赛中大放异彩，并因其良好的表现而被业界广泛应用。

kaggle神器：教你简单部署XGBoost

但是，许多使用过XGBoost的人可能会遇到这些问题：

模型太复杂，就像一个黑盒子
很难解释结果
在生产环境中部署训练有素的模型是件令人头疼的事情

对于1，要很好地理解XGBoost背后的算法，一个好方法是阅读本文（由XGBoost的创建者所写），你可能会发现这个演示很有用。对于2，这是迄今为止我发现的最好的文章（Scott Lundberg） https://towardsdatascience.com/interpretable-machine-learning-with-xgboost-9ec80d148d27，它解释了XGBoost计算整体特征重要性的三种不同方式，并且还解释了使用SHAP算法来计算每个单独记录的特征重要性。

本文的重点是3，将向读者展示如何使用一些简单的编码将XGBoost模型转换为.py文件，这个.py文件的唯一依赖是“numpy”包。因此，在您训练XGB模型之后，您可以轻松地将模型部署在另一个不需要XGBoost包的环境中。

本教程分为几个部分：下载数据并训练模型→将模型转换为.py文件→使用.py文件预测测试数据。

步骤0.下载jupyter笔记本

此笔记本包含以下所有代码。将它放在目标文件夹中。

步骤1.下载数据并训练模型

让我们使用著名的泰坦尼克号数据集来构建玩具模型。从链接下载train.csv和test.csv。创建一个子文件夹“/ data”并将.csv放在那儿。

因为XGBoost只接受数字输入，所以让我们跳过分类变量编码并随机选择一些数字列进行建模。

kaggle神器：教你简单部署XGBoost

此XGBoost模型生成了3个决策树，每个决策树的最大高度为3。由于gamma（分割数的惩罚常数）设置为较大的值，因此可防止某些树节点的分裂。

决策树看起来是这样的：

kaggle神器：教你简单部署XGBoost

每个记录的预测分数由“基础分数+来自所有树木的最终叶子值”给出。

步骤2.将模型转换为.py文件

在XGBoost Python API中，您可以找到允许您将模型转储为字符串或.txt文件的函数，或保存模型以供以后使用。但是没有API可以将模型转储为Python函数。有个诀窍：我们首先将模型转储为字符串，然后使用正则表达式解析长字符串并将其转换为.py文件。

kaggle神器：教你简单部署XGBoost

完成此工作的代码片段:

kaggle神器：教你简单部署XGBoost

通过模型训练中使用的基本分数和训练模型，我们能够将其转换为.py模型，该模型仅需要“numpy”包（用于缺失值处理）。

kaggle神器：教你简单部署XGBoost

生成的“xgb_model.py”的一部分如下所示：

kaggle神器：教你简单部署XGBoost

步骤3.使用.py文件预测测试数据。

我们现在可以导入刚刚创建的xgb_model.py，并且可以直接执行预测。

kaggle神器：教你简单部署XGBoost

让我们将它与XGBoost模型产生的预测进行比较。

kaggle神器：教你简单部署XGBoost

结果相符。

一些警告：

这些代码在python 3.5.2 + xgboost 0.6下运行良好。不保证为其他版本生成正确的结果。
我的代码中没有进行任何错误处理。
.py用于对python字典进行评分，但您可以进行一些小修改以适合您的用例。
在生成.py文件之前，请确保目标文件夹中没有与该名称相同的.py文件。

kaggle神器：教你简单部署XGBoost

运营：李佳惠

: itaquestion

相关推荐

机器学习算法的新女王——XGBoost

那天我不停地拉直领带，努力回忆起学过的所有东西，怀疑自己是否足够胜任工作。察觉到我的焦虑，老板微笑着说：。迟暮的女王已经退场,取而代之的是名字时髦、活力满满的新女王XGBoost。XGBoost是基于决策树的集成机器学习算法，使用了梯度提升框架。然而，当涉

mogigo00 0喜欢 / 0评论 2020-08-18

如何用机器学习模型，为十几亿数据预测性别

基于用户画像进行广告投放，是优化投放效果、实现精准营销的基础;而人口属性中的性别、年龄等标签，又是用户画像中的基础信息。那该如何尽量准确的为数据打上这些标签?这时候机器学习就派上用场了。本文将以性别标签为例，介绍人口属性标签预测的机器学习模型构建与优化。对

jaybeat 0喜欢 / 0评论 2020-05-26

windows 下使用conda安装xgboost问题

可以看到conda在windows上不支持直接装xgboost这个包的，取而代之的是py-xgboost这个包:

PeterHuang0 0喜欢 / 0评论 2020-05-01

使用XGBoost实现多分类预测的实践

cate_feature = [‘gender‘, ‘cell_province‘, ‘id_province‘, ‘id_city‘, ‘rate‘, ‘term‘]. del_feature = [‘auditing_date‘, ‘due_date‘

sxyhetao 0喜欢 / 0评论 2020-01-14

机器学习——XGboost算法

　　XGBoost是GBDT算法的一种改进，是一种常用的有监督集成学习算法；是一种伸缩性强、便捷的可并行构建模型的GradientBoosting算法。通过限制树模型的叶子节点的个数和叶子节点的值来降低模型复杂度，从而防止过拟合，二分之一是为了求导方便。　

shawsun 0喜欢 / 0评论 2020-01-01

DBDT的改进之XGBoost算法介绍

XGBoost是由传统的GBDT模型发展而来的，GBDT模型在求解最优化问题时应用了一阶导技术，而XGBoost则使用损失函数的一阶和二阶导，而且可以自定义损失函数，只要损失函数可一阶和二阶求导。

ustbfym 0喜欢 / 0评论 2019-11-01

XGBoost: 你不能不知的机器学习算法

XGBoost作为一个非常常用的算法，我觉得很有必要了解一下它的来龙去脉，于是抽空找了一些资料，主要包括陈天奇大佬的论文以及演讲PPT，以及网络上的一些博客文章，今天在这里对这些知识点进行整理归纳，论文中的一些专业术语尽可能保留不翻译，但会在下面写出自己的

风吹夏天 0喜欢 / 0评论 2019-10-22

xgboost原理

GBDT 每个新模型的建立是在之前残差梯度方向减小传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导XGBoost跟GB

yonezcy 0喜欢 / 0评论 2019-09-08

大战三回合：XGBoost、LightGBM和Catboost一决高低

XGBoost、LightGBM 和 Catboost 是三个基于 GBDT代表性的算法实现，今天，我们将在三轮 Battle 中，根据训练和预测的时间、预测得分和可解释性等评测指标，让三个算法一决高下！一言不合就 BattleGBDT 是机器学习中的一个

小白将 0喜欢 / 0评论 2019-07-08

XGBoost介绍：用监督学习来预测期望寿命

本文约4000字，建议阅读14分钟。本文将介绍XGBoost的定义，并利用这一模型对人类指数官方数据集进行回归预测。一座漂亮的森林，是如此的随机！XGBoost是一种可以使用提升树进行多核并行训练的框架。举个例子，我们已知一个人的体重和年龄，想预测他的身高

necrazy 0喜欢 / 0评论 2019-06-29

Machine Learning Mastery 博客文章翻译：XGBoost

请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。

yyHaker 0喜欢 / 0评论 2019-07-01

GBDT、XGboost原理介绍

决策树决策树是一种基本的分类和回归方法。决策树模型呈树形结构，可以认为是if-else形式的判断集合。其主要的优点有：可读性好；分类速度快。当使用决策树进行分类或者回归预测的时候，只需递归地按照内部节点的特征及划分值找到对应的叶节点即可，叶节点的类别或者值

lovetheme 0喜欢 / 0评论 2019-06-28

机器学习之XGBoost

相对于GBDT，XGBoost使用二阶信息，可以更快在训练集上收敛。表示t棵决策树在第i个样本处的预测值；

HappinessSourceL 0喜欢 / 0评论 2019-06-28

工程架构能力对于做好机器学习重要吗？

可能很多技术人员对于这个问题都有一些自己的看法。在面试中，多多少少会问一些机器学习方向候选人工程架构方面的问题。不少做机器学习的候选人表示，我是做算法的，不需要了解这些工程架构的问题，甚至有表示，了解工程架构就是浪费做算法的时间。从我这几年一些浅薄的经验来

yukyinbaby 0喜欢 / 0评论 2019-06-27

XGboost数据比赛实战之调参篇(完整流程)

我前面所做的工作基本都是关于特征选择的，这里我想写的是关于XGBoost参数调整的一些小经验。之前我在网站上也看到很多相关的内容，基本是翻译自一篇英文的博客，更坑的是很多文章步骤讲的不完整，新人看了很容易一头雾水。下面，就进入正题吧。

HappinessSourceL 0喜欢 / 0评论 2019-06-27

Python一些列安装

现在，我们希望能通过xgboost工具更好地解决这个问题。xgboost的全称是eXtreme Gradient Boosting。随着它在Kaggle社区知名度的提高，最近也有队伍借助xgboost在比赛中夺得第一。为了方便大家使用，陈天奇将xgboos

五小郎的学习笔记 0喜欢 / 0评论 2019-06-21

xgboost的windows安装 python版

xgboost是很有用的机器学习工具包，主要是实现了gbdt类型的算法这个包的好处，懂的人自然明白这里就说了一下windows安装python版的xgboost的方法首先去下载编译好的xgboost工具：。然后直接python setup.py insta

yangzzguang 0喜欢 / 0评论 2019-06-20

CatBoost：比XGBoost更优秀的GBDT算法

互联网的算法有很多应用场景，包括推荐系统、计算广告和金融反欺诈等。在处理这一类分类问题的时候，最常用的方法包括逻辑回归、GBDT和深度学习等。其中逻辑回归因为算法效率高，能有效处理大规模的数据，在深度学习还没有流行之前就被广泛的应用于大型的互联网公司。GB

走在IT的路上 0喜欢 / 0评论 2018-11-02

都说XGBoost好用，为什么名气总不如深度学习？

AlphaGo大战柯洁、李世石后，所有人都能谈上几句深度学习。人工智能在围棋上的这场突破，最终还要归功于机器学习三巨头三十年如一日的长期研究。相比之下，横扫Kaggle大赛的XGBoost，名气可就小太多了。更何况，它的发起人还只是个名不见经传的年轻人。有

supergxt 0喜欢 / 0评论 2017-06-04

结构化数据上的机器学习大杀器XGBoost

XGBoost是一个机器学习算法工具，它的原理本身就并不难理解，而且你并不需要彻底搞懂背后的原理就能把它用得呼呼生风。自从2014年9月份在 Kaggle 的希格斯玻色子机器学习大赛中夺魁以来，XGBoost 与深度学习两个算法垄断了 Kaggle 大赛的

木尧大兄弟 0喜欢 / 0评论 2017-05-26

线性模型已退场，XGBoost时代早已来

如何直观理解 XGBoost？它为什么这么优秀？我对十五年前第一天工作的情况还记忆犹新。彼时我刚毕业，在一家全球投资银行做分析师。我打着领带，试图记住学到的每一件事。与此同时，在内心深处，我很怀疑自己是否可以胜任这份工作。感受到我的焦虑后，老板笑着说：

ZhuZhuWonder 0喜欢 / 0评论 2019-04-16

零基础ML建模，自动机器学习平台R2 Learn 开放免费试用

在数据的世界中，机器学习已经成为不可或缺的工具。机器学习可以帮助发现隐藏在大量数据中的特定知识。很多时候，这些知识都不是人类能轻易分析得出的，它展示了大量事实之间的内部联系。但是如果我们需要这些隐藏知识辅助做决策，机器学习建模就成为了一个非常有效的手段。

unkownwind 0喜欢 / 0评论 2019-03-22

如何在macOS上为Python安装XGBoost

在本教程中，你将了解如何在macOS上为Python安装XGBoost库。本教程是在macOS High Sierra上编写和测试的。我推荐GCC 7和Python 3.6，我建议使用MacPorts安装这些软件。构建过程可能需要一分钟，如果编译正常则不会

haoeng 0喜欢 / 0评论 2018-02-14

为什么XGBoost在机器学习竞赛中表现如此卓越？

挪威科技大学 Didrik Nielsen 的硕士论文《使用 XGBoost 的树提升：为什么 XGBoost 能赢得「每一场」机器学习竞赛？》研究分析了 XGBoost 与传统 MART 的不同之处以及在机器学习竞赛上的优势。机器之心技术分析师对这篇长达

TangowL 0喜欢 / 0评论 2017-11-08

陈天奇做的XGBoost为什么能横扫机器学习竞赛平台？

XGBoost号称“比赛夺冠的必备大杀器”，横扫机器学习竞赛罕逢敌手，堪称机器学习算法中的新女王！但当涉及到中小型结构/表格数据时，基于决策树的算法现在被认为是最佳方法。而基于决策树算法中最惊艳的，非XGBoost莫属了。打过Kaggle、天池、DataC

wshyb0 0喜欢 / 0评论 2019-04-29

机器学习算法的新女王接管了“世界”并且可能长期在位！

我仍然记得十五年前第一份工作的第一天，我刚刚完成了我的研究生课程，并以分析师的身份加入了一家全球投资银行。然而，感受到我的焦虑之后，我的老板表示，“不需要担心，你只要知道回归模型就好了。”XGBoost是一种基于决策树的集成机器学习算法，它使用的是梯度增强

Hannah 0喜欢 / 0评论 2019-04-08

使用遗传算法在XGBoost中调整超参数

介绍遗传算法，其灵感来自查尔斯达尔文提出的自然选择过程。我们可以通过以下描述来理解自然过程及其与遗传算法的关系:. 我们从具有某些特征的初始种群开始，如图1所示。将在特定环境中测试该初始种群，以观察该种群中的个体（父母）基于预定义的适应性标准的表现。图5显

faiculty 0喜欢 / 0评论 2018-09-17

在机器学习模型中使用XGBoost

在本教程中，我们将介绍XGBoost，这是一种机器学习算法，最近主导了应用的机器学习空间。促进Vis-a-vis Bagging在Python中应用XGBoostXGBoost的超参数使用XGBoost时的交叉验证在XGBoost中可视化特征的重要性结论什

cckchina 0喜欢 / 0评论 2018-09-15

解释随机森林和其他黑盒子模型，如XGBoost

在机器学习中，在性能和解释之间有一个反复出现的困境。通常，模型越好，越复杂，越难理解。例如，决策树模型可以简单地通过绘制这棵树来解释，看看如何分割和叶子的成分是什么。然而，对于RandomForest或XGBoost，并没有特定的方法来实现这一点，因为它们

一条鱼 0喜欢 / 0评论 2018-08-06

用XGBoost检测帕金森病仅需十行Python代码

XGBoost是一种流行的技术，是传统回归/神经网络的完美替代方案。它代表E X treme G radient Boost ing，基本上构建了一些决策树来计算梯度。这听起来很简单，但可以非常强大。以帕金森检测为例：我们有几个指标可以分析，最终我们需要诊

拉风小宇 0喜欢 / 0评论 2018-04-06

纯干货|Boosting家族之XGBoost算法

XGBoost全名叫极端梯度提升，经常被用在一些比赛中，其效果显著。它是大规模并行boosted tree的工具，它是目前最快最好的开源boosted tree工具包。XGBoost 所应用的算法就是 GBDT的改进，既可以用于分类也可以用于回归问题中。说

深度瞎学习 0喜欢 / 0评论 2019-04-23

机器不学习：从一棵决策树到xgboost

文章《有监督模型的两个最重要算法点》中讲到主要在于特征学习与数值优化两个点，最早的决策树则集中在特征学习这个部分。第二步，最大特征形成顶点，第二大特征形成第二部分的叶子节点，最终形成树状结构，可以理解成最终根据多个纯度高的特征组合，判断样本是good或者b

unkownwind 0喜欢 / 0评论 2018-08-28

多标签文本分类简述

事实上，自然语言处理中的几乎所有问题都可以简化为多标签问题，这是一个很好的研究和应用课题！多标签是将标签分配给文档的过程，其中每个标签都是从独立的选项列表中选择的。多标签的关键在于允许为每个文档分配多个标签。多分类是多标签的子集，其中标签的数量固定为1。概

submarineas 0喜欢 / 0评论 2019-02-22

机器不学习：一文看懂机器学习时代神器—LightGBM

30万样本，40维特征，lightGBM在22秒内跑完，速度惊人，比xgboost快不少，精度与xgboost不相上下。但是易用性和特性相比xgboost还有待提高，cv，early stopping这两个我觉得非常重要的特性并没有找到。大多数机器学习工具

flydreamforever 0喜欢 / 0评论 2018-08-18

机器不学习：机器学习时代的三大神器:GBDT,XGBOOST和LightGBM

本文主要简要的比较了常用的boosting算法的一些区别，从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍，一步一步从原理到优化对比。原始的AdaBoost算法是在算法开始的时候，为每

ZhuZhuWonder 0喜欢 / 0评论 2018-08-17

CatBoost：比XGBoost更优秀的GBDT算法

深度学习是自 2012 年由百度首先成立深度学习实验室之后在国内掀起的人工智能大潮。然而由于深度学习目前还处于蓬勃发展的阶段，并且处理大规模数据时对于机器的经费的要求都比较高，因此在很多应用场景下大家选择的并不是机器学习。GBDT 自问世以来便在诸多机器学

沐诩 0喜欢 / 0评论 2018-08-31

大规模机器学习的编程技术、计算模型以及Xgboost和MXNet案例

现在，机器学习的趋势从传统方法中的简单模型 + 少量数据，到简单模型 + 海量数据，再发展到现在复杂模型 + 海量数据。首选提到并行编程技术，这是大规模机器学习的工程基础。在 X86 体系架构的 CPU 上，主要的向量化编程技术是 SSE 和 AVX。C

lgblove 0喜欢 / 0评论 2017-05-23