一、概况

1、数据清洗到底是在清洗些什么?

通常来说,你所获取到的原始数据不能直接用来分析,因为它们会有各种各样的问题,如包含无效信息,列名不规范、格式不一致,存在重复值,缺失值,异常值等.....

二、使用库介绍

1、Pandas

Python的一个数据分析包,被作为金融数据分析工具,为时间序列分析提供了很好的支持

2、NumPy

Python的一种开源的数值计算扩展,可用来存储和处理大型矩阵matrix,比Python自身的嵌套列表结构要高效的多,提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库,专为进行严格的数字处理而产生。

步骤:

一、了解数据

二、清洗数据

去除不需要的行、列

重新命名列

重新设置索引

用字符串操作规范列

用函数规范列

删除重复数据

填充缺失值

 

三、总结

最新文章

  1. 我的第一篇博客/markdown
  2. PAT自测-5 Shuffling Machine
  3. arch安装
  4. 小记:Bmob云端代码测试APNS推送功能 #代码片段
  5. HTML解析类 ,让你不使用正则也能轻松获取HTML相关元素 -C# .NET
  6. java互斥方法
  7. Hibernate之HQL介绍
  8. [LeetCode OJ] Distinct Subsequences
  9. 花非花-记一次linux上运行时报找不到库函数错误
  10. Oracle11g R2学习系列 之九 PL/SQL语言
  11. php 简单分页
  12. linux 之 tar 命令
  13. __FILE__,__LINE__,FUNCTION__实现代码跟踪调试(linux下c语言编程 )
  14. linux下php-5.4.8.tar.gz编译安装全攻略
  15. less函数
  16. for循环购物清单
  17. Unity Shader 基础(3) 获取深度纹理
  18. 【强大美观易用的图像编辑器】Pixelmator Pro 1.2 for Mac
  19. webpack笔记
  20. 【Java】 剑指offer(67) 把字符串转换成整数

热门文章

  1. 移动端 canvas基础1
  2. [OI笔记]每周刷题记录
  3. 让你轻松掌握 Python 中的 Hook 钩子函数
  4. JS拼接字符串太长希望换行保持html格式拼接的方法
  5. 生成对抗网络(Generative Adversarial Networks, GAN)
  6. Flowable—多实例任务:会签
  7. ExecutionListener,TaskListener流程监听 和任务监听
  8. node2vec实现源码详解
  9. [leetcode]110BalancedBinaryTree平衡二叉树
  10. JavaDailyReports10_07