在上一个博文中，我们用learning_curve函数来确定应该拥有多少的训练集能够达到效果，就像一个人进行学习时需要做多少题目就能拥有较好的考试成绩了。

本次我们来看下如何调整学习中的参数，类似一个人是在早上7点钟开始读书好还是晚上8点钟读书好。

加载数据

数据仍然利用手写数字识别作为训练数据：

from sklearn.datasets import load_digits

# 加载数据
digits = load_digits()
X = digits.data
y = digits.target

调整参数

我们想要调整·SVC(gamma=0.001)·SVC中的gamma参数，看到底把gamma参数设置成哪个值是最优的。
因此需要定义测试的参数范围，这里设置了参数值的范围为从10的-6次方到10的-2.3次方，总共5个值：

import numpy as np
# 定义gamma参数的可能取值范围，从10**-6, 到10**-2.3，总共5个参数值
param_range = np.logspace(-, -2.3, )

用validation_curve不停尝试在不同参数值下的损失函数值：

from sklearn.model_selection import validation_curve
from sklearn.svm import SVC
# param_name中指定了修改SVC中的哪个参数值，这里修改的是gamma参数值；param_range参数指定了具体参数值的可选范围
train_loss, test_loss = validation_curve(SVC(), X, y, param_name="gamma", param_range=param_range, cv=, scoring='neg_mean_squared_error')
train_loss_mean = -np.mean(train_loss, axis=)
test_loss_mean = -np.mean(test_loss, axis=)

可视化图形

可视化图形，横坐标为参数可选值的范围，纵坐标为在各参数下的损失函数值

# 可视化图形，横坐标为参数可选值的范围，纵坐标为在各参数下的损失函数值
import matplotlib.pyplot as plt
plt.plot(param_range, train_loss_mean, label="Train")
plt.plot(param_range, test_loss_mean, label="Test")
plt.legend()
plt.show()

图形显示为：
sklearn交叉验证3-【老鱼学sklearn】

在这个图形中，我们发现gamma值有一个转折点，当其在0.001之后，测试集的误差值就开始扩大了，因此，从图形上看，一个比较好的学习参数值是gamma=0.001或者再往前一点点，大概在0.0007左右。

完整代码

完整的代码如下：

from sklearn.datasets import load_digits

# 加载数据
digits = load_digits()
X = digits.data
y = digits.target

import numpy as np
# 定义gamma参数的可能取值范围，从10**-6, 到10**-2.3，总共5个参数值
param_range = np.logspace(-6, -2.3, 5)

from sklearn.model_selection import validation_curve
from sklearn.svm import SVC
# param_name中指定了修改SVC中的哪个参数值，这里修改的是gamma参数值；param_range参数指定了具体参数值的可选范围
train_loss, test_loss = validation_curve(SVC(), X, y, param_name="gamma", param_range=param_range, cv=10, scoring='neg_mean_squared_error')
train_loss_mean = -np.mean(train_loss, axis=1)
test_loss_mean = -np.mean(test_loss, axis=1)

# 可视化图形，横坐标为参数可选值的范围，纵坐标为在各参数下的损失函数值
import matplotlib.pyplot as plt
plt.plot(param_range, train_loss_mean, label="Train")
plt.plot(param_range, test_loss_mean, label="Test")
plt.legend()
plt.show()

sklearn交叉验证3-【老鱼学sklearn】

加载数据

调整参数

可视化图形

完整代码

BitTigerio

相关推荐

数据科学面试中应了解的十种机器学习概念

深度学习入门比赛——街景字符识别（四）

深度度量学习的这十三年，难道是错付了吗？

MachineLearning入门-11（算法评估）

论人工智能之二

千锋扣丁学堂Python培训之实现K折交叉验证方法步骤

Kaggle冠军经验分享丨如何用15个月冲到排行榜的首位

机器学习基础：(Python)训练集测试集分割与交叉验证

三招提升数据不平衡模型的性能（附python代码）

机器学习系列15：学习曲线

训练集、验证集、测试集以及交验验证的理解

机器学习基础：(Python)训练集测试集分割与交叉验证

资源 | 神经网络告诉我，谁是世界上最「美」的人？

机器学习模型评估指标示例

机器学习模型评估和超参数调优实践

七招教你处理非平衡数据——避免得到一个“假”模型

教你如何在机器学习竞赛中更胜一筹（上）

您应该在数据科学项目中使用交叉验证的5个理由

机器学习中交叉验证的两点介绍

通过交叉验证构建可靠的机器学习模型

在Python中训练/测试分割和交叉验证

调整机器学习模型

如何处理基于KNN算法的交叉验证，基于朴素贝叶斯算法计算AUC ?

处理非平衡数据的七个技巧

Python sklearn KFold 生成交叉验证数据集的方法

如何解决机器学习中的数据不平衡问题？

机器学习基本概念笔记

几种交叉验证（cross validation）方式的比较

《Python机器学习》笔记（六）

交叉验证

sklearn交叉验证-【老鱼学sklearn】

机器学习：以分析红酒口感为例说明交叉验证的套索模型