数据分析中,首先要进行数据清洗,才可以继续训练模型,预测等操作。

  首先介绍一下什么是数据清洗(定义来自 百度百科,有删减)

  数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,过滤。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

  残缺数据:通过算法KNN,回归,判定树分析,填补上残缺的数据。

  错误数据:主要是噪声数据。通过聚类,回归,分箱等手段剔除孤立点;还可以通过数据特征分布,剔除脱离分布的噪声数据。

  重复数据:剔除相似度大于阈值的数据。

  下面就介绍一款数据清洗的工具OpenRefine

OpenRefine 下载地址:    https://github.com/OpenRefine/OpenRefine

OpenRefine 教程下载地址:    http://download.csdn.net/detail/gattaca2011/6940325

转置请注明出处:http://www.cnblogs.com/rongyux/

后续更新中。。。

最新文章

  1. Velocity初探小结--velocity使用语法详解
  2. jQuery 滚动条 滚动到底部(下拉到底部) 加载数据(触发事件、处理逻辑)、分页加载数据
  3. css圆角矩形及去掉空格属性
  4. 高效使用Vector
  5. 支持单色条码图像生成的条形码控件Barcode Professional
  6. ASPxTreeList控件去根节点的新增修改操作(写在onCommandColumnButtonInitialize()事件中)
  7. Golang学习 - reflect 包
  8. POJ 1731
  9. JSONP(跨域请求) —— 一种非官方跨域数据交互协议
  10. opencart 百度登录和百度钱包支付插件 响应式适应pc/mobile
  11. PHP:phpMyAdmin如何解决本地导入文件(数据库)为2M的限制
  12. 前端框架之bootstrap
  13. Codeforces Round #436 (Div. 2) E. Fire
  14. 20162323周楠《Java程序设计与数据结构》第八周总结
  15. Cocos2D在新版Swift中常量枚举值引用代码的修改
  16. HTTP协议简介详解 HTTP协议发展 原理 请求方法 响应状态码 请求头 请求首部 java模拟浏览器客户端服务端
  17. RPC----Hadoop核心协议
  18. Caused by: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure
  19. Spring的jdbc模板1
  20. Quartz-Spring定时任务器持久化,通过Service动态添加,删除,启动暂停任务

热门文章

  1. Java中 a+=b 和 a=a+b 有什么区别?
  2. java静态代码块/静态属性、构造块、构造方法执行、main方法、普通代码块的顺序
  3. Kali Linux 安装open-vm-tools
  4. 安卓APP开发简单实例 结对编程心得
  5. 快速整理代码(c#)
  6. pyenv的安装和简单使用
  7. springboot之全局处理统一返回
  8. FlagCounter被封杀?自己实现一个简单的多国访客计数器
  9. C++进程间通讯方式
  10. JMeter 压测Server Agent无法监控资源问题,PerfMon Metrics Collector报Waiting for sample,Error loading results file - see file log, Can't accept UDP connections java.net.BindException: Address already in use 各种疑难杂症