特征选择是执行任何机器学习任务时的首要和重要步骤之一。数据集中的特征表示列。当我们得到机器学习数据集时，不一定每列（特征）都会对输出变量产生影响。如果我们在机器学习模型中添加这些不相关的特征，它将使模型变差（Garbage In Garbage Out）。这就需要进行特征选择。

在Pandas中实现特征选择时，数值特征和分类特征是不同的。在这里，我们将首先讨论数字特征选择。因此，在实现以下方法之前，我们需要确保DataFrame仅包含数字特征。此外，本文还将讨论回归问题的方法，即输入变量和输出变量都是连续的。

特征选择可以通过多种方式完成，大致有3类：

Filter方法
Wrapper方法
Embedded方法

关于数据集：

我们将使用内置的Boston数据集，可以通过sklearn加载。我们将使用上面列出的方法为预测“MEDV”列的回归问题选择特征。在以下Python代码中，我们将导入所有必需的Python库并加载机器学习数据集。

#importing libraries
from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.feature_selection import RFE
from sklearn.linear_model import RidgeCV, LassoCV, Ridge, Lasso
#Loading the dataset
x = load_boston()
df = pd.DataFrame(x.data, columns = x.feature_names)
df["MEDV"] = x.target
X = df.drop("MEDV",1) #Feature Matrix
y = df["MEDV"] #Target Variable
df.head()

使用sklearn和Pandas进行特征选择

1.Filter方法：

顾名思义，您过滤并仅采用相关特征的子集。选择特征后即可构建模型。这里的过滤是使用相关矩阵完成的，最常用的是Pearson相关。

在这里，我们将首先绘制Pearson相关热图，并查看自变量与输出变量MEDV的相关性。我们只选择具有高于0.5（取绝对值）的相关性的特征与输出变量。

2.Wrapper方法：

Wrapper方法需要一种机器学习算法，并将其性能作为评价标准。这意味着，您将这些特征提供给所选的机器学习算法，并根据机器学习模型性能添加/删除这些特征。这是一个迭代的和计算昂贵的过程，但它比Filter方法更准确。

有不同的Wrapper方法，如后向消除（Backward Elimination），前向选择（Forward Selection），双向消除（Bidirectional Elimination）和RFE。我们将在这里讨论后向消除和RFE。

后向消除

顾名思义，我们首先将所有可能的特征提供给模型。我们检查模型的性能，然后逐个迭代地删除性能最差的特征，直到模型的整体性能达到可接受的范围。

此处用于评估特征性能的性能指标是pvalue。如果pvalue高于0.05，那么我们删除该特征，否则我们保留它。

我们将首先在这里运行一次迭代，这只是得到一个概念的想法，然后我们将在循环中运行相同的代码，这将给出最终的一组特征。在这里我们使用OLS模型代表“普通最小二乘法”。该模型用于执行线性回归。

#Adding constant column of ones, mandetory for sm.OLS model
X_1 = sm.add_constant(X)
#Fitting sm.OLS model
model = sm.OLS(y,X_1).fit()
model.pvalues

使用sklearn和Pandas进行特征选择

我们可以看到变量'AGE'的最高p值为0.9582293，大于0.05。因此，我们将删除此特征并再次构建机器学习模型。这是一个迭代过程。这种方法在下面实现，它将给出最终的变量集，即CRIM，ZN，CHAS，NOX，RM，DIS，RAD，TAX，PTRATIO，B和LSTAT。

#Backward Elimination
cols = list(X.columns)
pmax = 1
while (len(cols)&gt;0):
 p= []
 X_1 = X[cols]
 X_1 = sm.add_constant(X_1)
 model = sm.OLS(y,X_1).fit()
 p = pd.Series(model.pvalues.values[1:],index = cols) 
 pmax = max(p)
 feature_with_p_max = p.idxmax()
 if(pmax&gt;0.05):
 cols.remove(feature_with_p_max)
 else:
 break
selected_features_BE = cols
print(selected_features_BE)

使用sklearn和Pandas进行特征选择

Output:

['CRIM', 'ZN', 'CHAS', 'NOX', 'RM', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']

RFE（递归特征消除）

递归特征消除（RFE）方法通过递归地移除属性并在剩余的属性上构建模型来工作。它使用精度度量来根据特征的重要性对特征进行排名。RFE方法将要使用的模型和所需特征的数量作为输入。然后它给出了所有变量的排名，1是最重要的。True是相关特征而False是不相关特征。

model = LinearRegression()
#Initializing RFE model
rfe = RFE(model, 7)
#Transforming data using RFE
X_rfe = rfe.fit_transform(X,y) 
#Fitting the data to model
model.fit(X_rfe,y)
print(rfe.support_)
print(rfe.ranking_)

使用sklearn和Pandas进行特征选择

Output:

[False False False True True True False True True False True False True]

[2 4 3 1 1 1 7 1 1 5 1 6 1]

这里我们采用了具有7个特征的LinearRegression模型，RFE给出了如上所述的特征排名，但是数字'7'的选择是随机的。现在我们需要找到最佳数量的特征（其准确度最高）。我们通过usig循环从1个特征开始，然后到13个。然后我们选择准确度最高的那个。

#no of features
nof_list=np.arange(1,13) 
high_score=0
#Variable to store the optimum features
nof=0 
score_list =[]
for n in range(len(nof_list)):
 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.3, random_state = 0)
 model = LinearRegression()
 rfe = RFE(model,nof_list[n])
 X_train_rfe = rfe.fit_transform(X_train,y_train)
 X_test_rfe = rfe.transform(X_test)
 model.fit(X_train_rfe,y_train)
 score = model.score(X_test_rfe,y_test)
 score_list.append(score)
 if(score&gt;high_score):
 high_score = score
 nof = nof_list[n]
print("Optimum number of features: %d" %nof)
print("Score with %d features: %f" % (nof, high_score))

使用sklearn和Pandas进行特征选择

Output:

Optimum number of features: 10

Score with 10 features: 0.663581

从上面的Python代码可以看出，最佳的特征数量为10.我们现在将10个特征数量提供给RFE，并获得RFE方法给出的最终特征集，如下所示：

cols = list(X.columns)
model = LinearRegression()
#Initializing RFE model
rfe = RFE(model, 10) 
#Transforming data using RFE
X_rfe = rfe.fit_transform(X,y) 
#Fitting the data to model
model.fit(X_rfe,y) 
temp = pd.Series(rfe.support_,index = cols)
selected_features_rfe = temp[temp==True].index
print(selected_features_rfe)

使用sklearn和Pandas进行特征选择

Output:

Index(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'DIS', 'RAD', 'PTRATIO', 'LSTAT'], dtype='object')

3.Embedded方法

Embedded方法在某种意义上是迭代的，它负责模型训练过程的每次迭代，并仔细提取对特定迭代的训练贡献最大的那些特征。正则化方法是最常用的Embedded方法，其在给定系数阈值的情况下惩罚特征。

在这里，我们将使用Lasso正则化进行特征选择。如果该特征无关紧要，则套索会对其系数进行处罚并使其为0.因此，系数= 0的特征将被删除。

reg = LassoCV()
reg.fit(X, y)
print("Best alpha using built-in LassoCV: %f" % reg.alpha_)
print("Best score using built-in LassoCV: %f" %reg.score(X,y))
coef = pd.Series(reg.coef_, index = X.columns)

使用sklearn和Pandas进行特征选择

print("Lasso picked " + str(sum(coef != 0)) + " variables and eliminated the other " + str(sum(coef == 0)) + " variables")

使用sklearn和Pandas进行特征选择

imp_coef = coef.sort_values()
import matplotlib
matplotlib.rcParams['figure.figsize'] = (8.0, 10.0)
imp_coef.plot(kind = "barh")
plt.title("Feature importance using Lasso Model")

使用sklearn和Pandas进行特征选择

这里的Lasso模型已经采用了除NOX，CHAS和INDUS之外的所有特征。

结论：

我们了解了如何为数值数据使用多种方法选择特征，并比较了它们的结果。现在出现了在什么情况下选择哪种方法的困惑。以下几点将帮助你做出这个决定：

Filter方法不太准确。它在做EDA时很棒，它也可以用于检查数据中的多重共线性。
Wrapper和Embedded方法可以提供更准确的结果，但由于它们的计算成本很高，因此这些方法适用于较少的特征（~20）。

使用sklearn和Pandas进行特征选择

关于数据集：

1.Filter方法：

2.Wrapper方法：

RFE（递归特征消除）

3.Embedded方法

结论：

相关推荐