lixgjob 2017-11-28
假如有一个房间,正被几十只流浪猫占领着。而你作为这个房间的主人,想知道具体多少只猫,分别有哪些颜色,以及猫群中哪只尾巴特别长等等。这其实并不难对吧,你只需要绕着房间走一圈就可以了。
但是如果这个房间里不只有猫呢?如果房间里除了猫以外到处是虫子、鸟、老鼠,而所有的猫都瘫在猫薄荷旁边快活似神仙,在这种情况下,你还能数的清有多少只猫吗?很难。更不要说看清它们的尾巴了。
一个脏乱的数据集就是这样。你希望从这样的数据集中获得有用的信息,就需要事先对其进行清理,去掉多余的东西,毕竟数据中有错误也会影响最终结果进而导致出现错的判断。
数据清洗是不可或缺的一个步骤。
当然,只要知道基本步骤,数据清理并不难。这里是一本关于数据清洗的电子书《基本数据清洗终极指南》(The Ultimate Guide to Basic Data Cleaning),供各位学习者参考。
书中首先介绍了数据清洗的重要性(鸡肋,喜欢直接切入正题的朋友可以略过),另外还有7章关于基本的数据清洗技术。
感兴趣的朋友,请关注我们,私信后台小编,回复“数据清洗”,获取资源!
(注:本书为全英文版,请有选择地进行下载)