shaoqigulang 2018-06-28
数据可视化就是使用图形图表等方式来呈现数据,图形图表能够高效清晰地表达数据包含的信息。数据可视化在各个领域都得到了广泛的应用,例如,产品销售数据的可视化,统计样本数据可视化,机器学习数据可视化等。因此,掌握一些数据可视化的技能是非常有必要的。
在这篇文章中我们会简单的介绍一下基于Python的数据可视化。Python有很多非常优秀易用的数据可视化的库,作为入门文章我们这里使用Python的matplotlib,事实上Python中很多可视化库都是基于matplotlib开发的,例如pandas等。下面我们将使用几种不同数据图表来讲解基于matplotlib的数据可视化。
线条图适合用来呈现基于时间序列或有固定间隔的序列数据。横轴表示时间或者间隔,而纵轴则表示对应的数值。例如,店铺每天的销售额,旅游景点每天游客接待量等。现在假设我们有某个店铺最近一年的的销售额数据,使用线段图可以非常直接的呈现出来。
代码和线图图如下:
条形图主要是用来将数据分类显示,横轴表示数据的类型,而纵轴则表示对应类型的数值。例如,我们有5种不同类型产品的销售量,利用条形图我们可以非常方便的把数据呈现出来。
柱状图,也叫直方图,通常用来呈现变量的分布。它将数据按照一定的区间分组,而纵轴表示位于这一区间数据的个数。例如,下面我们生成一组正态分布的随机数据,柱状图按照一定的区间分组数据,并统计位于各个区间的数据量。
箱线图用来显示一组数据的分散情况。在箱线图中,数据集的50%被一个矩形覆盖,既矩形的底边位于数据集的25%处,矩形的顶边位于数据集的75%处;在矩形中心既数据集50%处有一条横线;矩形顶边和底边差值的1.5倍称为IRQ值,离矩形底边和顶边IRQ处分别画一条称为边缘的线。所有位于边缘线以外的数据点称为异常点。
下面我们随机的生成三组数据,并使用箱线图呈现每组数据的分散情况。
散点图是数据在直角坐标系平面的分布图。散点图是非常有用的的显示两组变量之间的关系。例如身高和体重之间的关系,产品价格与销量之间的关系等。
下面的代码中,我们随机的生成1000组数据,然后使用散点图呈现出来。
这篇文章里我们简单的讨论了如何使用matplotlib绘制条形图和柱状图等基本的图表,后续文章中我们介绍更多的python可视化库和一些更复杂的绘图。
往期文章:
Python开发必备利器之Virtual Environment
Python爬虫入门,快速抓取大规模数据