关于pandas的一些用法
2024-09-08 18:20:12
pandas用法之前我总是把他想的无比复杂。其实也是比较简单的,这个东西在做数据统计的时候还是挺好用的。
然后这里列举几个比较好用的几段代码。偏向数据透视类型pivot的,导出方式是直接在IDE 生成。
import pandas as pd
df = pd.read_excel(r'C:\Users\yjiang3\Desktop\VBA\22.xlsx')
pd.pivot_table(df,index=["DocumentTypeName","DocumentId"])#选取不同的索引
#如果第一个索引在excel里有大量的重复,就会只生成一个 然后对应不同的下一个索引
然后这个index就是索引, 里面的DocumentTypeName 会自动成为一列。
import numpy as np
import pandas as pd
df = pd.read_excel(r'C:\Users\yjiang3\Desktop\VBA\22.xlsx')
pd.pivot_table(df,index=["DataAnalyst","CountryId"],values=["ShareClassCount"],columns=["ProcessStatusName"],aggfunc=[np.sum],fill_value=0)
然后这个这一组pivot数据结构,先加上索引,计算shareclasscout,(这里要用到numpy 不然算不出来)然后多添加一列columns索引,aggfunc计算之和。
fill_value 设置为零,虽然不知道是什么意思。
import pandas as pd
path = r'C:\Users\yjiang3\Desktop\VBA\22.xlsx'
data = pd.DataFrame(pd.read_excel(path))
result = data.loc[data['DataAnalyst'] == 'Skylar.Yin@morningstar.com'] print(result)
然后来个筛选项:
import pandas as pd
path = r'C:\Users\yjiang3\Desktop\VBA\22.xlsx'
data = pd.DataFrame(pd.read_excel(path))
result = data.loc[data['DataAnalyst'] == 'Skylar.Yin@morningstar.com']
print(result)
来个小总结:
最新文章
- 【Android】Android Camera实时数据采集及通过MediaCodec硬编码编码数据的流程
- VIJOS1476旅游规划[树形DP 树的直径]
- Maven类包冲突终极解决方案
- Java 理论与实践: 流行的原子——新原子类是 java.util.concurrent 的隐藏精华(转载)
- SPRING IN ACTION 第4版笔记-第四章ASPECT-ORIENTED SPRING-007-定义切面的around advice
- [Whole Web] [AngularJS] Localize your AngularJS Application with angular-localization
- TLSAlloc()
- C# 截取字符串某个字符分割的最后一部分
- Python做的第一个小项目-模拟登陆
- zookeeper分布式部署方案
- c++重要知识点
- centos7安装telnet
- 从Nexus私服下载和上传资源(一)
- Java分布式锁的三种实现方案(redis)
- 软件测试_测试工具_LoadRunner
- javascript解析JSON---将字符串转换为json对象
- JS代码指导原则
- [原创] PHP 使用Redis实现锁
- 强大的jQuery选择器 平时用的太少了 下次要先来看看
- js 的常用选择器