使用python完成对excel的操作

星辰大海的路上 2020-04-07

import numpy as np
import pandas as pd

1.通过外部文件导入数据表

df=pd.DataFrame(pd.read_csv(‘name.csv‘,header=1))
df=pd.DataFrame(pd.read_Excel(‘name.xlsx‘))

2.通过填入数据生成数据表

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
 "date":pd.date_range(‘20130102‘, periods=6),
 "city":[‘Beijing ‘, ‘SH‘, ‘ guangzhou ‘, ‘Shen
zhen‘, ‘shanghai‘, ‘BEIJING ‘],
 "age":[23,44,54,32,34,32],
 "category":[‘100-A‘,‘100-B‘,‘110-A‘,‘110-C‘,‘2
10-A‘,‘130-F‘],
 "price":[1200,np.nan,2133,5433,np.nan,4432]},
 columns =[‘id‘,‘date‘,‘city‘,‘category‘,‘age‘,
‘price‘])

3.检查数据表的维度:shape属性

df.shape

结果输出 (6,6)
4.查看数据表信息

df.info()

5.查看数据表数据格式:dtypes属性

df.dtypes

6.空值检查isnull()函数(非空False,空True)

df.isnull() #对整张数据表检查
df[‘price‘].isnull() #对price列进行检查

7.查看某列数据唯一值:unique()函数

df[‘price‘].unique()

8.查看列名称:columns属性
9.查看数据表数值:values属性
10.查看前几行数据:head()函数

df.head()
df.head(3)

11.查看后几行数据:tail()函数

二、数据清洗

1.处理空值dropna()与fillna()

#删除数据表中含有空值的行
df.dropna(how=‘any‘)

#使用price均值对price列NA进行填充
df[‘price‘].fillna(df[‘price‘].mean())

#使用数字0填充数据表中空值
df.fillna(value=0)

2.清理空格

#清除price字段中的字符空格
df[‘price‘]=df[‘price‘].map(str.strip)

3.大小写转换

price列大小写转换
df[‘price‘]=df[‘price‘].str.lower()

4.更改数据格式:astype()函数

#更改数据格式
df[‘price‘].astype(‘int‘)

5.更改列名称

#更改列名称category列更改为category-size
df.rename(columns={‘category‘: ‘category-size‘})

6.删除列的重复值drop_duplicates()函数

#删除后出现的重复值
df[‘price‘].drop_duplicates()

7.数值修改以及替换

#数据替换
df[‘city‘].replace(‘sh‘, ‘shanghai‘)

三、数据预处理

1.数据表合并

#数据表df和df1匹配合并
df_inner=pd.merge(df,df1,how=‘inner‘)
df_left=pd.merge(df,df1,how=‘left‘)
df_right=pd.merge(df,df1,how=‘right‘)
df_outer=pd.merge(df,df1,how=‘outer‘)

2.设置索引列

#设置索引列
df_inner.set_index(‘id‘)

3.排序(按索引,按数值)

#按特定列的值排序
df_inner.sort_values(by=[‘age‘])
#按索引列排序
df_inner.sort_index()

4.数据分组

#如果price列的值>3000,group列显示high,否则显示low
df_inner[‘group‘] = np.where(df_inner[‘price‘] > 3000,‘high‘,‘low
‘)

#对复合多个条件的数据进行分组标记
df_inner.loc[(df_inner[‘city‘] == ‘beijing‘) & (df_inner[‘price‘]
 >= 4000), ‘sign‘]=1

5.数据分列

#对category字段的值依次进行分列,并创建数据表,索引值为df_inner的索引列,列
名称为category和size
pd.DataFrame((x.split(‘-‘) for x in df_inner[‘category‘]),index=d
f_inner.index,columns=[‘category‘,‘size‘])

#将完成分列后的数据表与原df_inner数据表进行匹配
df_inner=pd.merge(df_inner,split,right_index=True, left_index=Tru
e)

四、数据提取

1.按标签提取(loc)

#按索引提取区域行数值
df_inner.loc[0:5]
df_inner.loc[5]

#重设索引
df_inner.reset_index()
#设置日期为索引
df_inner=df_inner.set_index(‘date‘)

#提取4日之前的所有数据
df_inner[:‘2013-01-04‘]

2.按位置提取(iloc)

#使用iloc按位置区域提取数据
df_inner.iloc[:3,:2]
#iloc函数除了可以按区域提取数据,还可以按位置逐条提取,前
面方括号中的0,2,5表示数据所在行的位置,后面方括号中的数表示所
在列的位置。
#使用iloc按位置单独提取数据
df_inner.iloc[[0,2,5],[4,5]]

3.按标签和位置提取(ix)

#使用ix按索引标签和位置混合提取数据
df_inner.ix[:‘2013-01-03‘,:4]
  1. 按条件提取(区域和条件值)
#判断city列的值是否为beijing
df_inner[‘city‘].isin([‘beijing‘])

#先判断city列里是否包含beijing和shanghai,然后将复合条件的数据提取出来。
df_inner.loc[df_inner[‘city‘].isin([‘beijing‘,‘shanghai‘])]

五、数据筛选

1.按条件筛选(与、或、非)
Python中使用loc函数配合筛选条件来完成筛选功能。配
合sum和count函数还能实现Excel中sumif和countif函数的功能。

#使用“与”条件进行筛选
df_inner.loc[(df_inner[‘age‘] > 25) & (df_inner[‘city‘] == ‘beiji
ng‘), [‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘]]

#使用“或”条件筛选
df_inner.loc[(df_inner[‘age‘] > 25) | (df_inner[‘city‘] == ‘beiji
ng‘), [‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘]].sort([‘age‘])

#对筛选后的数据按price字段进行求和
df_inner.loc[(df_inner[‘age‘] > 25) | (df_inner[‘city‘] == ‘beiji
ng‘), [‘id‘,‘city‘,‘age‘,‘category‘,‘gender‘,‘price‘]].sort([‘age
‘]).price.sum()

#使用“非”条件进行筛选,并按id排序
df_inner.loc[(df_inner[‘city‘] != ‘beijing‘), [‘id‘,‘city‘,‘age‘,
‘category‘,‘gender‘]].sort([‘id‘])

#对筛选后的数据按city列进行计数
df_inner.loc[(df_inner[‘city‘] != ‘beijing‘), [‘id‘,‘city‘,‘age‘,
‘category‘,‘gender‘]].sort([‘id‘]).city.count()

#使用query函数进行筛选
df_inner.query(‘city == ["beijing", "shanghai"]‘)

#对筛选后的结果按price进行求和
df_inner.query(‘city == ["beijing", "shanghai"]‘).price.sum()
12230

六、数据汇总

1.分类汇总
使用groupby函数进行分类汇总

#对所有列进行计数汇总
df_inner.groupby(‘city‘).count()

#对两个字段进行汇总计数
df_inner.groupby([‘city‘,‘size‘])[‘id‘].count()

#对city字段进行汇总并计算price的合计和均值。
df_inner.groupby(‘city‘)[‘price‘].agg([len,np.sum, np.mean])

2.数据透视

七、数据统计

1.数据采样
2.描述统计
3.标准差
4.协方差
5.相关分析

八、数据输出

1.写入Excel

#输出到Excel格式
df_inner.to_Excel(‘Excel_to_Python.xlsx‘, sheet_name=‘bluewhale_c
c‘)
  1. 写入csv
#输出到CSV格式
df_inner.to_csv(‘Excel_to_Python.csv‘)

相关推荐