基于scikit-learn机器学习库的分类预测

摘要：在Python中如何使用scikit-learn模型对分类、回归进行预测？本文简述了其实现原理和代码实现。

一旦你在scikit-learn中选择好机器学习模型，就可以用它来预测新的数据实例。初学者经常会有这样的疑问：

如何在scikit-learn中用我自己的模型进行预测？

在本教程中，你将会发现如何在Python的机器学习库scikit-learn 中使用机器学习模型进行分类和回归预测。文章结构如下：

1.如何构建一个模型，为预测做好准备。

2.如何在scikit-learn库中进行类别和概率预测。

3.如何在scikit-learn库中进行回归预测。

基于scikit-learn机器学习库的分类预测

一、构建一个模型

在进行预测之前，你必须训练一个最终模型。你可以使用k-fold交叉验证或训练/测试数据，对模型进行训练。这样做的目的就是为了评估模型在样本外数据上的表现及其性能，比如新的数据。

你可以在这里了解更多关于如何训练最终模型的信息：

如何训练一个最终的机器学习模型？

如何预测分类模型

分类问题，就是模型学习输入特征与输出特征之间的映射，确定某一个或多个数据实例是否为某一个类标签的问题，比如“是垃圾邮件”和“不是垃圾邮件”。

下面是针对一个简单二元分类问题的Logistic回归模型的示例代码。

尽管我们在本教程中使用Logistic回归，在scikit-learn中几乎所有的分类算法中也都可以使用该函数。

基于scikit-learn机器学习库的分类预测

模型构建完成以后，需要将模型保存到文件中，如pickle库。保存后，你可以随时加载模型并使用它进行预测。为了简单起见，我们将跳过这一步，有关这方面的详细内容，请参阅以下文章：

在scikit-learn库中如何使用Python保存并加载机器学习模型

现在，我们希望用最终模型进行两种分类预测：类别预测和概率预测。

1、类别预测

类别预测就是给定最终模型和一个或多个数据实例，使用模型对预测数据实例进行分类。

首先我们并不知道新数据的类别。这就是我们需要这个模型的原因。使用predict()函数在scikit-learn库中使用最终分类模型预测新数据实例的类。

例如，Xnew的数组中有一个或多个数据实例，将数组传递给模型的predict()函数，来预测数组中每个实例的类别。

基于scikit-learn机器学习库的分类预测

（1）多个实例的类别预测

我们来举个例子，对多种类别预测进行详细论述。

基于scikit-learn机器学习库的分类预测

对三个新的数据实例的类别进行预测，然后将数据实例和预测结果一起打印出来，如下图所示。

基于scikit-learn机器学习库的分类预测

（2）单个实例的类别预测

如果你只有一个新的数据实例，你可以将这个实例以数组的形式传递给predict()函数，例如：

基于scikit-learn机器学习库的分类预测

运行上述代码，打印出实例数据和预测结果，如下图所示。

基于scikit-learn机器学习库的分类预测

关于类别标签的注意事项

准备好数据后，可能使用过LabelEncoder将图像的类别（例如字符串型）映射为整型。也可以用LabelEncoder中的inverse_transform()函数将整型再转换回字符串型。出于这个原因，在拟合最终模型时，您可能想要在pickle库中保存用于编码输出预测结果的LabelEncoder。

2、概率预测

概率预测就是预测每个数据实例所属类别的概率。给定一个或多个新实例，该模型将预测每个数据所属类别的概率，并返回0和1之间的某一个值。

你可以在scikit-learn中调用predict_proba()函数进行这些实例的类别概率的预测，如下图所示：
基于scikit-learn机器学习库的分类预测