不会Python也能分析?从业以来,我写过最心痛的一次数据分析

elizabethxxy 2020-04-08

本文谨纪念那些英雄,也为了给大家敲响警钟,可能我们的一次随意、一次疏忽、一次不留意,背后就是惨痛的代价。

几天前,四川凉山这个熟悉的名字,又再次上了热搜:那些英雄,永远离开了我们。

悲痛之余,我开始思考:究竟是什么原因让这种情况经常发生?

一、数据来源

本次数据采集于消防网等网站上的公开数据,网站比较友好地直接提供了数据下载方式,所以这次不需要用到python爬虫,将采集后的数据整理如下:

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

二、数据清洗

采集到的数据还是有很多的脏数据,需要先进行清洗和处理,才能成为我们进行数据分析的源数据。

原有的数据分析模式下,如果我想要分析一个数据,我需要将所有的数据都交给IT处理,需要排期,一般是3-5天,如果中途有数据要更换,还要更久。等我拿到数据的时候,我也该被开除了。

所以急需一款能够让业务人员自助分析的工具,还要自带ETL,这里我推荐FineBI,作为一款企业级的大数据分析工具,个人版却是永久免费的,这是给个人用户的利好。

说一个它的优势吧,对于5000W以上的大数据量,数据查询需要很久,但是如果采用FineBI的OLAP分析预处理,提前进行数据建模,3秒就能展示,那分析效率就会大大提高。

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

这里我先将数据导入到FineBI里,创建一个自助数据集之后选择筛选项,将空值、异常值等脏数据处理掉。

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

三、数据加工

1、计算四川省山火数据占全国总数的比例

为了能够很好地对比全国来显示四川省的山火情况,我将山火次数、受灾面积、造成伤亡、较大火灾数等进行处理 ,新增四列,分别计算每个指标的占比值,数值格式选定为百分数。

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

2、计算四川出动扑火人数与伤亡数的对比

这个指标主要为了展示四川省山火扑救的难度,普通山火出动的人员较少、伤亡数较小,如果这个指标高于全国平均值,则说明四川山火扑救的难度较大。同样也是新增一列,添加占比公式,如下。

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

3、分组汇总森林火灾的事故原因

因为网站上统计到山火事故原因较多,主要分为生产性火灾、非生产性火灾和其他未查明火灾,这一步主要是为了将事故进行分类汇总,选择“分组汇总”,按照组类进行排序,如下:

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

四、数据可视化

数据处理加工完毕,下一步就是数据可视化了,因为这次数据比较简单,没有很复杂的逻辑结构,因此直接点击创建组件,选择合适的图表类型,然后拖拽对应的指标到坐标轴,最后经过一些美化就基本完成了。

这里可能比较费时间的就是制作全国和四川省的山火数据地图,好在FineBI可以直接匹配地理纬度,然后为了实现点击四川省就能展示该省的数据情况,就要添加一个钻取,将四川省的对应地理纬度进行自动匹配,就可以实现了地图钻取了。

这一步可能比较难懂,大家如果感兴趣可以去官网上搜搜教程,跟着教程做起来还是很简单的。

最后,就是本次分析得到的可视化结果:

1、全国2019年森林火灾分布图

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

从全国2019年森林火灾分布图里分析,较为惊讶的是森林火灾最严重的地区,并不是四川、云南等地,而是集中在湖广两地,四川大概处于第二档的位置,除此之外内蒙古、陕西和安徽也属于森林火灾的高发省份。

而钻渠到四川省的森林火灾分布图后会发现,火灾高发地则集中在德阳、遂宁、乐山、内江四个市,泸州、广元、成都等地也经常发生森林火灾,这几个市应该是重点盯防森林山火的地方。

2、历年来四川省森林火灾情况与全国的对比图

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

首先是历年来四川省发生森林火灾次数占全国次数比、四川省伤亡数占全国数比的组合图,柱状图代表森林火灾次数占比,折线图代表伤亡数占比。

从图中可以看出来,2011年之前四川省的森林火灾占比和伤亡占比都不高,均不足10%的占比量;而2012年之后,四川省的森林火灾情况急转直下,伤亡占比最高占到全国的50%以上,而森林火灾次数占比也基本在11%以上,居高不下!

启方特意上查了一下资料,2012年四川的森林火灾还真是不少,1.27泸州森林火灾、5.2凉山火灾等等,当时可以说是全国震惊!

3、历年来四川扑救人数与伤亡人数对比图

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

折线图代表的是历年来全国扑救人数与伤亡比,柱状图则代表四川省的扑救人数与伤亡比,如果柱状图高于折线图,则说明该年四川省扑救森林火灾的难度大,伤亡人数多。

可以看出,基本上四川省的扑救人数与伤亡比是低于全国平均水平的,但是还是可以看到2012年出现了例外,四川森林火灾造成巨大的人员伤亡远超了全国平均水平;此外,2015年时也出现了持平现象。

4、历年来发生森林火灾的事故原因分析图

不会Python也能分析?从业以来,我写过最心痛的一次数据分析

从事故原因中可以看出,造成森林山火的最主要原因就是烧荒烧炭,一方面地方要发展经济,靠山吃山靠水吃水;另一方面,过度的烧荒造成了大范围的无监管地带,很多地方都缺乏必要的监督和指导,因此造成了很多场森林大火的发生。

相关推荐