【数据科学系统学习】数据科学在做什么 # 描述性统计分析

zhangdell 2019-06-28

博主在一开始学习数据科学时,没有人带路,没有一条直接的路径。因此各种信息都接收,一开始比较混乱,后来接触的多了,渐渐开始了解到关于数据科学无非分为数学中的统计学、计算机中的 python 和机器学习算法、项目中对业务的理解三大块。在学习方法和知识获取上也多走了弯路,浪费了很多时间,现在将它们进行一遍梳理,多为根据自己的理解进行输出与再学习,如果对想探索数据科学的你有一点用,还请点击文末的赞与收藏,给个鼓励。

数据科学系统学习这个专题将从这三方面进行整理,下面进入正文。


在上一篇中我们说到了在进行描述性分析时,需要知道各指标的度量类型,来选择适用的统计表和图进行信息呈现。而描述性统计分析是数据分析过程的第一步,也称为探索性数据分析,因此本篇将介绍的是统计数据类型的度量和数据的概括性度量。

统计数据类型的度量

针对不同的数据类型会有不同的分析方法。

数据总的可分为定性定量两种类型。
定性:变量是品质特征,如性别分男女;
定量:变量是数值,可以量化,如身高体重。

其中定量类型又可分为离散型和连续型。
离散型:计数结果,如贷款违约次数;
连续型:测试结果,如身高体重的测量。

其中定性分为定类定序两种数据类型,定量分为定距定比两种数据类型,它们之间也有一个等级关系,需要进行度量。

如何度量数据类型

按照一定的等级来划分这些数据类型,整理如下表:
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

低级类型的分析方法,高级的类型也可以用,反之不可。

数据的概括性度量

即对数据的整体分布特征进行度量。度量指标为集中趋势,离散程度,分布的形状。

描述连续变量的统计量主要有四类统计量,分别用于描述数据的集中趋势、离中趋势、偏态程度和尖峰程度。

集中趋势:使用某个指标代表数据的集中趋势,常见的指标有众数,中位数,平均数

离散程度:描述数据离散程度的常见指标有极差、方差和平均绝对偏差。其中方差和标准差得到广泛使用。

分布的形状:在描述数据分布的对称与高矮时,需要引入偏度(数据分布的偏斜程度)和峰度(数据分布的高矮程度)的概念。

整理为下表所示:
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

众数:用众数作为某一变量的一个概括性度量,是一个位置代表值。

中位数:排在数据最中间的值,此外还有四分位数、十分位数、百分位数。

平均数:数据类型必须是数值型的,平均数受数据极端值的影响很大,而中位数则不受极端值影响。当一组数据的分布倾斜比较大时,中位数的效果可能比平均数好。

若数据分布对称,以上三者相同。否则,则需引入偏度和峰度来描述分布形状是否对称,偏斜程度,以及扁平程度。其中,对于标准正态分布的变量,其偏度与峰度都为 0。

偏态:如果统计数据峰值与平均值不相等,则这个频率分布就是偏态的。根据峰值大于或小于平均值可分为正偏函数和负偏函数,其偏离程度可用偏态系数刻画。
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

偏度与变量形态:
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

偏度大小及正负取决于分布偏移的方向及程度。对称分布时,偏度为0;左偏分布时,偏度小于0;右偏分布时,偏度大于 0。

例如收入是一个典型的右偏分布的变量,高收入的人数量极少,但收入极高,这样就会将数据的分布拉偏,平均值就会被极大收入的人拉高,此时中位数更能反映数据的集中趋势。

峰态:对数据分布平态或尖峰程度的测量。如果一组数据服从标准正态分布,则峰态系数的值为0,若不为0,则呈平峰分布或尖峰分布。

【数据科学系统学习】数据科学在做什么 # 描述性统计分析

峰度与变量形态:
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

峰度大小与正负取决于分布相较标准正态分布的高矮。峰度大于0,说明变量的分布相比较标准正态分布要更加密集;峰度小于0则较为分散。

异众比率:非众数组的频数占总频数的比例,异众比率越大,众数代表性越差。

四分位差:是上四分位数与下四分位数的差值。也称为四分位距,涉及到如何判断一组数据的异常值。主要测量顺序数据的离散程度。用Qd表示,Qd=Qu-QlQd占了整个数据的 50%,反映了中间 50% 数据的离散程度,它的值越小,中间数据越集中;值越大,越分散。

方差:反映了数值型数据的“波动性”,在描述一个波动范围时,标注差比方差更方便,因为标准差和数据单位一致。

相对离散程度:比较不同组数据的离散程度。用相对离散系数,也称变异系数,即标准差与平均数的比值V=S/X,离散系数越大,说明数据离散程度越大。


如有不足,欢迎指正。

相关推荐