三石 2018-07-22
前面的文章中我们分别介绍了python的可视化库matplotlib和pyecharts,这篇文章主要介绍python的另一个可视化库pandas。当然在实际工作中我们没有必要精通每一个可视化库的使用,但是对各个可视化库都了解一些也是有好处的。
Pandas是一个功能非常非常强大的数据分析工具,广泛的应用于各个领域,包括金融,经济,统计,分析等学术和商业领域。在本文中,我们只是简单的介绍如何使用pandas做数据的可视化。
通过pip命令我们可以非常容易的把pansdas环境安装好。因为pandas是在matplotlib的基础上开发并提供更易用的绘图接口,所以我们在准备环境的时候也需要安装matplotlib。
pip install matplotlib
pip install pandas
环境准备好了,我们接下来看看如何使用pandas做数据的可视化。Pandas的一个基本概念是数据帧(DataFrame),它是二维的表格型数据结构,我们可以简单的理解为数据的行和列的表格。下面我们看看如何在DataFrame绘制各种类型的图表。
DataFrame上的线条图其实只是对matplotlib库的plot()方法的简单包装。下面代码中我们随机生成4组包含30个值的数据来绘制线条图。每一组数据在线条图上由不同的颜色表示。
执行上面示例代码, 我们得到如下图表:
下面的代码中我们随机的生成4组包含10个值的数据来绘制条形图。条形图通过柱形的高度/条形的宽度来表现数据的大小。要绘制水平条形图,使用barh()方法;要生成一个叠加条形图,通过指定stacked=True来实现。
执行上面示例代码, 我们得到如下图表:
可以使用plot.hist()方法绘制直方图,通过指定bins值我们可以控制统计区间的大小。
执行上面示例代码, 我们得到如下图表:
形图是一种用作显示一组数据分散情况资料的统计图。它能显示出一组数的最大值、最小值、中位数、下四分位数及上四分位数。下面我们在[0, 1)区间上随机生成5组包含10个值的数据,用箱形图来表示出每一组数据的分散情况。
执行上面示例代码, 我们得到如下图表:
DataFrame.plot.area()方法创建区域图形。
执行上面示例代码, 我们得到如下图表:
直角坐标系上的散点图可以用来展现数据的x,y之间的关系。DataFrame.plot.scatter()方法可以创建散点图。下面我们随机生成表示300个点的数据来绘制散点图。
执行上面示例代码, 我们得到如下图表:
饼状图主要用于表现不同类目的数据在总和中的占比,每个的弧度表示数据数量的比例。pandas的DataFrame.plot.pie()方法可以创建饼状图。下面随机的生成4个数值,并用饼状图表示绘制各个数值在总和中的比例。
执行上面示例代码, 我们得到如下图表:
相关文章:
Python数据可视化之matplotlib入门
Python数据可视化之pyecharts入门
计算的时候总共分3步,1到2是第二组......lower: i. 这组数据中的小值 higher: j. 这组数据中的大值,fraction 是第三步中的小数部分,意思是当前这组数据的0到1的分位数
Series是一种类似于一维数组的对象,由一组数据以及一组与之对应的索引组成。 index: 索引序列,必须是唯一的,且与数据的长度相同. 如果没有传入索引参数,则默认会自动创建一个从0~N的整数索引