QianYanDai 2020-06-16
Pandas基于两种数据类型: series 与 dataframe
Series:是一个一维的数据类型
DataFrame:是一个二维的表结构
选择/切片
df[‘code‘] # 选取一列,生成一个Series
df[[‘code‘]] # 选取一列,生成一个DataFrame
df[[‘code‘, ‘unit‘]] # 选取多列
df[1:3] #第1行到第2行(不含第3行)
loc,在知道列名字的情况下,df.loc[index,column] 选取指定行,列的数据
iloc完全用数字来定位 iloc[row_index, column_index]
isin 过滤
df[df[‘unit‘].isin([‘1单元‘])
缺省项
# pandas 中使用np.nan作为缺省项的值
# 删除所有带有缺省项的行 :df.dropna(how = ‘any)
# 填充缺省项:df.fillna(value = 7)
# 获得缺省项的布尔掩码:pd.isnull(df)
观察操作
# 前几行数据
df.head()
# 显示索引
df.index
# 显示列
df.columns
# 转置
df.T
计算的时候总共分3步,1到2是第二组......lower: i. 这组数据中的小值 higher: j. 这组数据中的大值,fraction 是第三步中的小数部分,意思是当前这组数据的0到1的分位数
Series是一种类似于一维数组的对象,由一组数据以及一组与之对应的索引组成。 index: 索引序列,必须是唯一的,且与数据的长度相同. 如果没有传入索引参数,则默认会自动创建一个从0~N的整数索引