数据科学第 5 章主成分分析（降维）、相关性

这两天用学了主成分分析，用的是PCA。主成分分析就是降维，通过线性组合，把多个原始变量合并成若干个主成分，这样每个主成分都变成原始变量的线性组合。所以你想看具体哪个特征对结果的影响大，通过PCA是看不到的。但PCA能把原来的10+数据特征转变为几个，实现过程如下：

导入数据：

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

inputfile = 'C:/Users/xiaom/Desktop/data/online_shoppers_intention.csv'
df = pd.read_csv(inputfile)

这是后面的几列
数据科学第 5 章主成分分析（降维）、相关性

1、数据处理

只要购买客户数据，对VisitorType、weekend数据做处理，转换为0，1；再删除不要的字段

#只要购买客户的数据
df = df[df['Revenue'] == True]
df['VisitorType'] = np.where(df['VisitorType'] == 'Returning_Visitor',1,0)
df['workday'] = np.where(df['Weekend']==True,0,1)
df.drop(['Weekend','Revenue','Month'], axis=1, inplace=True)

2、相关性检测

对df表进行相关性检测，看每个字段的相关度，删除相关度高的字段，减少计算量。如果自变量属于中度以上线性相关的（>0.6）多个变量，只保留一个即可。
数据科学第 5 章主成分分析（降维）、相关性
1、2相关系数0.61；3、4系数为0.63；5、6为0.91；7、8为0.74。相关度一般在0.64以上就认为是比较相关的关系，所以删除5

#求各字段的相关性，用corr()函数，并保留2位小数
df.corr().round(2)
#结果：1，2相关系数0.61；3，4系数为0.63；5，6为0.91；7，8为0.74。所以对相关性高的保留1个字段
df.drop(['Administrative_Duration', 'Informational_Duration',
         'ProductRelated_Duration',
         'BounceRates'],axis=1, inplace=True)
print(df)

3、标准化处理

x = df
#对PageValues相差太大，对其进行标准化
from sklearn import preprocessing
x = preprocessing.scale(x)

4、PCA

#用PCA（主成分分析法），来查看对购买影响最大的特征
from sklearn.decomposition import PCA
model = PCA(n_components=7)   #把数据降到6维
model.fit(x)
print('降到6维后，这6维的代表性为：')
print(model.explained_variance_ratio_)
print(model.components_) #返回具有最大方差的成分
print('返回参数的值')
print(model.get_params)  #返回各个参数的值
#print(model.get_precision())

#下面是画图的
x2 = model.transform(x)
df['pca1'] = x2[:,0]
df['pca2'] = x2[:,1]
#print(df.head( ))
sns.lmplot("pca1","pca2", data=df, fit_reg=False)
plt.show()

左边是降维后的结果，68%左右，数据从原来的10维下降到了6维。从结果看，这个数据可能不太适合用pca来分析，因为降到6维后的代笔性不足70%。
右边是降维后的图。
数据科学第 5 章主成分分析（降维）、相关性

数据科学第 5 章主成分分析（降维）、相关性

1、数据处理

2、相关性检测

3、标准化处理

4、PCA

zhangdell

相关推荐

python机器学习（八）主成分分析（PCA）

机器学习9 主成分分析

机器学习之主成分分析(PCA&特征选择)

【转】R语言主成分分析（PCA）

机器学习之主成分分析

机器学习之——线性判别分析（LDA）, 主成分分析(PCA)

无监督学习简介：了解主成分分析（PCA）和聚类方法

维度诅咒和主成分分析

用StackOverflow访问数据实现主成分分析（PCA）

使用Python深入了解PCA（主成分分析）

业界 | Kaggle问卷主成分分析，16000数据从业者面临这5类挑战

机器学习：交互式代码在Tensorflow中的主成分分析网络

特征脸(Eigenface)理论基础之PCA主成分分析法

主成分分析推导

R语言-主成分分析

数据科学 第 5 章 主成分分析（降维）、相关性

1、数据处理

2、相关性检测

3、标准化处理

4、PCA

相关推荐

数据科学第 5 章主成分分析（降维）、相关性