python学习笔记4_数据清洗与准备
2024-10-08 01:21:47
一、处理缺失值
pandas使用浮点值NaN(Not a Number)来显示缺失值,并将缺失值称为NA(not available(不可用))。
NA常用处理方法:
dropna:根据每个标签的值是否是缺失数据来筛选轴标签,并根据允许丢失的数据量来确定阈值。
fillna:用某些值填充的数据或使用插值方法(如'ffill' 或'bfill')。
isnull:返回表明哪些值是缺失值的布尔值。
notnull:isnull的反函数。
1、过滤(data.dropna())
删除包含缺失值的行(默认):data.dropna()等价于data[data.notnull()],默认会删除包含缺失值的行
通过传入参数方式,可以
删除所有值均为NA的行:data.dropna(how=’all‘)
删除所有值均为NA的列 :data.dropna(axis=1,how=all)
保留包含一定数量的观察值的行:data.dropna(thresh=2)
2、补全(data.fillna())
ffill
二、数据转换
1、删除重复值
data.duplicated():返回一个判断每一行是否存在重复的布尔值Searies
data.drop_duplicates():返回的是去重后的DataFrame.
2、使用函数或映射进行数据转换
3、替代值
data.replace( *,np.nan)
三,字符串操作
1、字符串对象方法
2、正则表达式
3、向量化字符串函数
最新文章
- 夺命雷公狗-----React_native---2---sdk的安装
- 惊涛怪浪(double dam-break) -- position based fluids
- ylbtech-Unitity-CS-Arrays:数组
- [vsftp]500 OOPS: cannot change directory
- 小白日记45:kali渗透测试之Web渗透-SqlMap自动注入(三)-sqlmap参数详解-Optimization,Injection,Detection,Techniques,Fingerprint
- iOS快速集成检查更新
- Eclipse混淆文件导入Android Studio Gradle编译报input jar file is specified twice
- Kafka分布式集群搭建
- jvm工具的使用
- bootstrap中的居左和居右
- Android查缺补漏(View篇)--在 Activity 的 onCreate() 方法中为什么获取 View 的宽和高为0?
- ABP官方文档翻译 9.2 Entity Framework Core
- [LeetCode] Flood Fill 洪水填充
- 勾勾街——一个专注于免越狱免签名的苹果ios APP打包生成的网站
- JS操作MongoDB
- [转]清除服务器IIS缓存的常用方法
- 多tomcat 同一个浏览器 多个项目 会导致session覆盖
- ASP.NET Web Api 实现数据的分页
- 关于Cocos Creator用js脚本代码播放骨骼动画的步骤和注意事项
- border、margin、padding三者的区别