zhangdell 2019-06-28
博主在一开始学习数据科学时,没有人带路,没有一条直接的路径。因此各种信息都接收,一开始比较混乱,后来接触的多了,渐渐开始了解到关于数据科学无非分为数学中的统计学、计算机中的 python 和机器学习算法、项目中对业务的理解
三大块。在学习方法和知识获取上也多走了弯路,浪费了很多时间,现在将它们进行一遍梳理,多为根据自己的理解进行输出与再学习,如果对想探索数据科学的你有一点用,还请点击文末的赞与收藏,给个鼓励。
数据科学系统学习这个专题将从这三方面进行整理,下面进入正文。
在上一篇中我们说到了在进行描述性分析时,需要知道各指标的度量类型,来选择适用的统计表和图进行信息呈现。而描述性统计分析是数据分析过程的第一步,也称为探索性数据分析,因此本篇将介绍的是统计数据类型的度量和数据的概括性度量。
针对不同的数据类型会有不同的分析方法。
数据总的可分为定性
和定量
两种类型。
定性:变量是品质特征,如性别分男女;
定量:变量是数值,可以量化,如身高体重。
其中定量类型又可分为离散型和连续型。
离散型:计数结果,如贷款违约次数;
连续型:测试结果,如身高体重的测量。
其中定性分为定类
和定序
两种数据类型,定量分为定距
和定比
两种数据类型,它们之间也有一个等级关系,需要进行度量。
按照一定的等级来划分这些数据类型,整理如下表:
低级类型的分析方法,高级的类型也可以用,反之不可。
即对数据的整体分布特征进行度量。度量指标为集中趋势,离散程度,分布的形状。
描述连续变量的统计量主要有四类统计量,分别用于描述数据的集中趋势、离中趋势、偏态程度和尖峰程度。
集中趋势:使用某个指标代表数据的集中趋势,常见的指标有众数,中位数,平均数。
离散程度:描述数据离散程度的常见指标有极差、方差和平均绝对偏差。其中方差和标准差得到广泛使用。
分布的形状:在描述数据分布的对称与高矮时,需要引入偏度(数据分布的偏斜程度)和峰度(数据分布的高矮程度)的概念。
整理为下表所示:
众数:用众数作为某一变量的一个概括性度量,是一个位置代表值。
中位数:排在数据最中间的值,此外还有四分位数、十分位数、百分位数。
平均数:数据类型必须是数值型的,平均数受数据极端值的影响很大,而中位数则不受极端值影响。当一组数据的分布倾斜比较大时,中位数的效果可能比平均数好。
若数据分布对称,以上三者相同。否则,则需引入偏度和峰度来描述分布形状是否对称,偏斜程度,以及扁平程度。其中,对于标准正态分布的变量,其偏度与峰度都为 0。
偏态:如果统计数据峰值与平均值不相等,则这个频率分布就是偏态的。根据峰值大于或小于平均值可分为正偏函数和负偏函数,其偏离程度可用偏态系数刻画。
偏度与变量形态:
偏度大小及正负取决于分布偏移的方向及程度。对称分布时,偏度为0;左偏分布时,偏度小于0;右偏分布时,偏度大于 0。
例如收入是一个典型的右偏分布的变量,高收入的人数量极少,但收入极高,这样就会将数据的分布拉偏,平均值就会被极大收入的人拉高,此时中位数更能反映数据的集中趋势。
峰态:对数据分布平态或尖峰程度的测量。如果一组数据服从标准正态分布,则峰态系数的值为0,若不为0,则呈平峰分布或尖峰分布。
峰度与变量形态:
峰度大小与正负取决于分布相较标准正态分布的高矮。峰度大于0,说明变量的分布相比较标准正态分布要更加密集;峰度小于0则较为分散。
异众比率:非众数组的频数占总频数的比例,异众比率越大,众数代表性越差。
四分位差:是上四分位数与下四分位数的差值。也称为四分位距,涉及到如何判断一组数据的异常值。主要测量顺序数据的离散程度。用Qd
表示,Qd=Qu-Ql
,Qd
占了整个数据的 50%,反映了中间 50% 数据的离散程度,它的值越小,中间数据越集中;值越大,越分散。
方差:反映了数值型数据的“波动性”,在描述一个波动范围时,标注差比方差更方便,因为标准差和数据单位一致。
相对离散程度:比较不同组数据的离散程度。用相对离散系数,也称变异系数,即标准差与平均数的比值V=S/X
,离散系数越大,说明数据离散程度越大。
如有不足,欢迎指正。