xusong 2018-08-05
在描述性统计中,你描述、展示、总结和整理你的数据,无论是通过数值计算还是图表或表格。描述性统计中的一些常见度量是集中趋势,而另一些是数据集的可变性。
描述性统计分析有助于我们理解我们的数据,是机器学习中非常重要的一部分。对数据集进行描述性统计分析是绝对重要的。很多人跳过了这一部分,因此丢失了很多关于他们数据的有价值的见解,这常常导致错误的结论。
它描述了一组具有代表其分布中心的单个值的数据。集中趋势的主要衡量标准有三种:
可变性度量也称为数据的扩展,描述了观察集的相似性或可变性。最流行的可变性指标是范围,四分位距(IQR),方差和标准差。
四分位数范围是衡量大多数值所在的地方。
方差的问题在于,由于平方,它与原始数据的测量单位不同。
如果标准偏差较小,则数据点往往接近平均值。高标准偏差意味着您的数据点分布在很宽的范围内。
当数据是单峰时,最好使用标准偏差。在正态分布中,大约34%的数据点位于平均值之上或之下的平均值和一个标准偏差之间。由于正态分布是对称的,因此68%的数据点落在高于平均值的一个标准偏差和低于平均值的一个标准偏差之间。大约95%落在低于平均值的两个标准偏差和高于平均值的两个标准偏差之间。并且大约99.7%落在高于平均值的三个标准偏差和三个标准偏差之间。
下面的图片说明了这一点。
我将简要介绍一下概率。在进入概率的实际定义之前,让我们看一些术语。
伯努利试验
一个有两个结果的实验叫做伯努利试验。
n个伯努利试验中成功次数的概率分布称为二项式分布。
二项分布的公式如下
具有不同成功概率和100个随机变量的二项分布的概率质量函数
连续随机变量(可以假设两点之间的任何可能值的变量)的概率分布 称为概率密度函数。
概率密度函数下的面积给出随机变量在该范围内的概率。
如果我有一个种群数据,我从数据中取出相同大小的随机样本,那么样本均大致正态分布。
它基本上描述了绘制数据时的大样本。它有时被称为“钟形曲线”或“高斯曲线”。
推理统计和概率计算要求给出正态分布。这基本上意味着,如果您的数据不是正态分布的,您需要非常小心地使用什么统计测试,因为它们可能导致错误的结论。
在完美的正态分布中,每一面都是另一面的精确镜像。它看起来应该如下图所示:
在正态分布中,均值,众数和中位数都相等并且落在相同的中线点。
平均值为0且标准偏差为1的正态分布称为标准正态分布。标准正态分布曲线下面积为1。
较高标准偏差的正态分布更平坦,即与较低标准偏差的分布相比更加分散。
标准偏差数的距离,观测值离均值的距离,为标准分数或Z分数。
正Z分数表示观测值为高于均值的Z个标准差。Z分数为负表示该值在均值以下。
观察值=μ+zσ[μ是平均值,σ是标准偏差]
从上面的图形区域围绕平均值约2个标准差是0.95,这意味着在该范围内的数据概率为0.95。
对于特定的z得分,我们可以查看Z表以找出值小于该特定z值的概率。