关于pandas的一些用法

pandas用法之前我总是把他想的无比复杂。其实也是比较简单的，这个东西在做数据统计的时候还是挺好用的。

然后这里列举几个比较好用的几段代码。偏向数据透视类型pivot的，导出方式是直接在IDE 生成。

import pandas as pd

df = pd.read_excel(r'C:\Users\yjiang3\Desktop\VBA\22.xlsx')

pd.pivot_table(df,index=["DocumentTypeName","DocumentId"])#选取不同的索引

#如果第一个索引在excel里有大量的重复，就会只生成一个 然后对应不同的下一个索引

然后这个index就是索引，里面的DocumentTypeName 会自动成为一列。

import numpy as np

import pandas as pd

df = pd.read_excel(r'C:\Users\yjiang3\Desktop\VBA\22.xlsx')

pd.pivot_table(df,index=["DataAnalyst","CountryId"],values=["ShareClassCount"],columns=["ProcessStatusName"],aggfunc=[np.sum],fill_value=0)

然后这个这一组pivot数据结构，先加上索引，计算shareclasscout，(这里要用到numpy 不然算不出来）然后多添加一列columns索引,aggfunc计算之和。

fill_value 设置为零，虽然不知道是什么意思。

import pandas as pd

path = r'C:\Users\yjiang3\Desktop\VBA\22.xlsx'

data = pd.DataFrame(pd.read_excel(path))

result = data.loc[data['DataAnalyst'] == 'Skylar.Yin@morningstar.com']

print(result)

然后来个筛选项:

import pandas as pd

path = r'C:\Users\yjiang3\Desktop\VBA\22.xlsx'

data = pd.DataFrame(pd.read_excel(path))

result = data.loc[data['DataAnalyst'] == 'Skylar.Yin@morningstar.com']

print(result)

来个小总结:

巴特西

关于pandas的一些用法

最新文章

热门文章