kunlong00 2018-07-02
随机森林是预测分析中最有效的机器学习模型之一,使它成为机器学习的主力。
随机森林模型是一种附加模型,它通过组合来自一系列基础模型的决策来进行预测。更正式地说,我们可以把这类模型写成:
g(x)=f0(x)+f1(x)+f2(x)+…
其中最终的模型“g”是简单的基础模型“fi”的总和。这里,每个基分类器都是一个简单的决策树。这种广泛的使用多个模型以获得更好的预测性能的技术称为model ensembling。在随机森林中,所有的基础模型都是使用不同的数据子样本独立构建的。
使用Python预测基于经验的工资示例:
#随机森林回归
#导入库
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
#导入数据集
dataset = pd.read_csv(‘Position_Salaries.csv’)
X = dataset.iloc[:, 1:2].values
y = dataset.iloc[:, 2].values
Position_Salaries.csv
# Fitting Random Forest Regression to the dataset
from sklearn.ensemble import RandomForestRegressor
regressor = RandomForestRegressor(n_estimators = 10, random_state = 0)
regressor.fit(X,y)
#预测新的结果
y_pred = regressor.predict(6.5)
Output
# 可视化随机森林回归结果(higher resolution)
X_grid = np.arange(min(X), max(X), 0.01)
X_grid = X_grid.reshape((len(X_grid), 1))
plt.scatter(X, y, color = ‘red’)
plt.plot(X_grid, regressor.predict(X_grid), color = ‘blue’)
plt.title(‘Truth or Bluff (Random Forest Regression)’)
plt.xlabel(‘Position level’)
plt.ylabel(‘Salary’)
plt.show()
随机森林回归预测图