zhangxiaojiakele 2019-12-16
pandas是
基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理
相关联的几个库,
分析库 scikit-learn 和 statsmodels
数值计算工具,NumPy
可视化图库,matplotlib
pandas是专门为
处理表格和混杂数据设计的.专注于清理数据.
基础知识:
它类似一个一维数组的对象,就是一组数据(各种Numpy 数据对象) 和一列数据标签(索引)形成的.仅由一组数据即可产生最简单的series.
理解了numpy 之后就很好理解这个了. 其中ndarray 是一种多维的数组对象.
有时候理解这个概念更为重要,
Series的字符串表现形式为:索引在左边,值在右边。由于我们没有为数据指定索
引,于是会自动创建一个0到N-1(N为数据的长度)的整数型索引。你可以通过
Series 的values和index属性获取其数组表示形式和索引对象
pandas的isnull和notnull函数,缺失值会表示Na
计算的时候总共分3步,1到2是第二组......lower: i. 这组数据中的小值 higher: j. 这组数据中的大值,fraction 是第三步中的小数部分,意思是当前这组数据的0到1的分位数
Series是一种类似于一维数组的对象,由一组数据以及一组与之对应的索引组成。 index: 索引序列,必须是唯一的,且与数据的长度相同. 如果没有传入索引参数,则默认会自动创建一个从0~N的整数索引