如何用Python中自带的Pandas和NumPy库进行数据清洗
2024-09-03 20:03:18
一、概况
1、数据清洗到底是在清洗些什么?
通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息,列名不规范、格式不一致,存在重复值,缺失值,异常值等.....
二、使用库介绍
1、Pandas
Python的一个数据分析包,被作为金融数据分析工具,为时间序列分析提供了很好的支持
2、NumPy
Python的一种开源的数值计算扩展,可用来存储和处理大型矩阵matrix,比Python自身的嵌套列表结构要高效的多,提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库,专为进行严格的数字处理而产生。
步骤:
一、了解数据
二、清洗数据
去除不需要的行、列
重新命名列
重新设置索引
用字符串操作规范列
用函数规范列
删除重复数据
填充缺失值
三、总结
最新文章
- 我的第一篇博客/markdown
- PAT自测-5 Shuffling Machine
- arch安装
- 小记:Bmob云端代码测试APNS推送功能 #代码片段
- HTML解析类 ,让你不使用正则也能轻松获取HTML相关元素 -C# .NET
- java互斥方法
- Hibernate之HQL介绍
- [LeetCode OJ] Distinct Subsequences
- 花非花-记一次linux上运行时报找不到库函数错误
- Oracle11g R2学习系列 之九 PL/SQL语言
- php 简单分页
- linux 之 tar 命令
- __FILE__,__LINE__,FUNCTION__实现代码跟踪调试(linux下c语言编程 )
- linux下php-5.4.8.tar.gz编译安装全攻略
- less函数
- for循环购物清单
- Unity Shader 基础(3) 获取深度纹理
- 【强大美观易用的图像编辑器】Pixelmator Pro 1.2 for Mac
- webpack笔记
- 【Java】 剑指offer(67) 把字符串转换成整数
热门文章
- 移动端 canvas基础1
- [OI笔记]每周刷题记录
- 让你轻松掌握 Python 中的 Hook 钩子函数
- JS拼接字符串太长希望换行保持html格式拼接的方法
- 生成对抗网络(Generative Adversarial Networks, GAN)
- Flowable—多实例任务:会签
- ExecutionListener,TaskListener流程监听 和任务监听
- node2vec实现源码详解
- [leetcode]110BalancedBinaryTree平衡二叉树
- JavaDailyReports10_07