博主在一开始学习数据科学时，没有人带路，没有一条直接的路径。因此各种信息都接收，一开始比较混乱，后来接触的多了，渐渐开始了解到关于数据科学无非分为数学中的统计学、计算机中的 python 和机器学习算法、项目中对业务的理解三大块。在学习方法和知识获取上也多走了弯路，浪费了很多时间，现在将它们进行一遍梳理，多为根据自己的理解进行输出与再学习，如果对想探索数据科学的你有一点用，还请点击文末的赞与收藏，给个鼓励。

数据科学系统学习这个专题将从这三方面进行整理，下面进入正文。

在上一篇中我们说到了在进行描述性分析时，需要知道各指标的度量类型，来选择适用的统计表和图进行信息呈现。而描述性统计分析是数据分析过程的第一步，也称为探索性数据分析，因此本篇将介绍的是统计数据类型的度量和数据的概括性度量。

统计数据类型的度量

针对不同的数据类型会有不同的分析方法。

数据总的可分为定性和定量两种类型。
定性：变量是品质特征，如性别分男女；
定量：变量是数值，可以量化，如身高体重。

其中定量类型又可分为离散型和连续型。
离散型：计数结果，如贷款违约次数；
连续型：测试结果，如身高体重的测量。

其中定性分为定类和定序两种数据类型，定量分为定距和定比两种数据类型，它们之间也有一个等级关系，需要进行度量。

如何度量数据类型

按照一定的等级来划分这些数据类型，整理如下表：
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

低级类型的分析方法，高级的类型也可以用，反之不可。

数据的概括性度量

即对数据的整体分布特征进行度量。度量指标为集中趋势，离散程度，分布的形状。

描述连续变量的统计量主要有四类统计量，分别用于描述数据的集中趋势、离中趋势、偏态程度和尖峰程度。

集中趋势：使用某个指标代表数据的集中趋势，常见的指标有众数，中位数，平均数。

离散程度：描述数据离散程度的常见指标有极差、方差和平均绝对偏差。其中方差和标准差得到广泛使用。

分布的形状：在描述数据分布的对称与高矮时，需要引入偏度（数据分布的偏斜程度）和峰度（数据分布的高矮程度）的概念。

整理为下表所示：
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

众数：用众数作为某一变量的一个概括性度量，是一个位置代表值。

中位数：排在数据最中间的值，此外还有四分位数、十分位数、百分位数。

平均数：数据类型必须是数值型的，平均数受数据极端值的影响很大，而中位数则不受极端值影响。当一组数据的分布倾斜比较大时，中位数的效果可能比平均数好。

若数据分布对称，以上三者相同。否则，则需引入偏度和峰度来描述分布形状是否对称，偏斜程度，以及扁平程度。其中，对于标准正态分布的变量，其偏度与峰度都为 0。

偏态：如果统计数据峰值与平均值不相等，则这个频率分布就是偏态的。根据峰值大于或小于平均值可分为正偏函数和负偏函数，其偏离程度可用偏态系数刻画。
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

偏度与变量形态：
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

偏度大小及正负取决于分布偏移的方向及程度。对称分布时，偏度为0；左偏分布时，偏度小于0；右偏分布时，偏度大于 0。

例如收入是一个典型的右偏分布的变量，高收入的人数量极少，但收入极高，这样就会将数据的分布拉偏，平均值就会被极大收入的人拉高，此时中位数更能反映数据的集中趋势。

峰态：对数据分布平态或尖峰程度的测量。如果一组数据服从标准正态分布，则峰态系数的值为0，若不为0，则呈平峰分布或尖峰分布。

【数据科学系统学习】数据科学在做什么 # 描述性统计分析

峰度与变量形态：
【数据科学系统学习】数据科学在做什么 # 描述性统计分析

峰度大小与正负取决于分布相较标准正态分布的高矮。峰度大于0，说明变量的分布相比较标准正态分布要更加密集；峰度小于0则较为分散。

异众比率：非众数组的频数占总频数的比例，异众比率越大，众数代表性越差。

四分位差：是上四分位数与下四分位数的差值。也称为四分位距，涉及到如何判断一组数据的异常值。主要测量顺序数据的离散程度。用Qd表示，Qd=Qu-Ql，Qd占了整个数据的 50%，反映了中间 50% 数据的离散程度，它的值越小，中间数据越集中；值越大，越分散。

方差：反映了数值型数据的“波动性”，在描述一个波动范围时，标注差比方差更方便，因为标准差和数据单位一致。

相对离散程度：比较不同组数据的离散程度。用相对离散系数，也称变异系数，即标准差与平均数的比值V=S/X，离散系数越大，说明数据离散程度越大。

如有不足，欢迎指正。

【数据科学系统学习】数据科学在做什么 # 描述性统计分析

统计数据类型的度量

如何度量数据类型

数据的概括性度量

相关推荐