https://zhuanlan.zhihu.com/p/64418072

源数据常常包含各种差错值,为了进行下一步的分析,我们必须先找出并更正这些差错,做这些工作几乎不会有什么快乐感可言,但却往往需要耗费很多精力。如果利用数据准备工具就能够发现这些数据质量问题,我们就可以节省大量时间。

PowerQuery恰好有个功能就是做这个的:列分析,下面就来看看这个功能如何帮助我们进行数据清洗的。

首先更新到最新版的 PowerBI Desktop,在预览功能中启用列分析。

然后在 Power Query 编辑器中可以看到数据与之前稍微有点不同,标题下方多了一个绿色的条,

在 PQ 编辑器窗口,点击【视图】选项卡,看到数据预览处多了两个新功能:列分发和列质量,

列质量

随便打开一个表,勾选"列质量",看看是什么效果,

可以看出自动对该列的数据质量进行了统计,区分为有效、错误和空值,并用不同的颜色进行区分,分别统计所占的比例,标题下方不同颜色的数据条长度也按不同类型的数据比例进行标示。

而一旦该列中含有错误值,颜色条直接用虚线标示,也许是因为错误值是不可容忍,必须进行相应处理。把鼠标悬停在该区域,自动浮出提示窗口,提示在[类别]中有一处错误值,

可以直接点击删除错误,然后该错误行将被删除。

同样,在有空值的列悬停鼠标,也会出现删除空的窗口,直接点击就可以将含有空值的行删除。

列分发

勾选"列分发",

可以看到每列直接出来一个迷你的柱形图,把该列数据非重复值的分布,直观的展现出来,并在下方统计该列该有多少个非重复值,多少个唯一值。鼠标悬停在该区域,还可以直接点击删除重复项。

通过这个功能是不是可以方便的知道数据的质量,并进行快速的整理呢。

不过遗憾的是,目前列分析功能只能针对前1000行进行分析,并不能分析全部的数据。

如果对行进行翻转,还可以分析最后1000行的数据质量,即使通过这种方式,也就仅仅能分析2000行而已,如果数据量较小还可以,而今天我们要面对的数据量,动辄可能都多出两个数量级都不止,所以这2000行的数据几乎可以忽略不计,但这个功能也绝不是摆设,我们同样可以利用这样的快速分析,对该数据质量有一个大致的预判,在数据清洗阶段应该分配多少精力也有个预期。

当然该功能除了数据量上的不足,对于分析的质量,也仅停留在空值、错误值、重复值和唯一值等表面的数据元素上,无法进行更智能的异常排查,但毕竟走出了第一步,期待PowerBI在这方面尽快有更成熟的动作。

最新文章

  1. (转)tomcat进程意外退出的问题分析
  2. 配置服务器有错/usr/libexec/gconf-sanity-check-2的退出状态为256
  3. Android主流UI开源库整理(转载)
  4. 检查密码复杂度的C#正则表达式
  5. SSRS 迁移
  6. android 软键盘不遮挡页面上的控件
  7. 网件无线网卡在windows 2012支持问题
  8. setsockopt的作用列表
  9. BZOJ2293: 【POJ Challenge】吉他英雄
  10. 【HDOJ】3500 Fling
  11. Caffe : Layer Catalogue(1)
  12. mysql中自动更新时间CURRENT_TIMESTAMP
  13. Python语法
  14. PhpStorm11.0 配置在浏览器中打开文件
  15. 编写高质量代码:改善Java程序的151个建议(第一章:JAVA开发中通用的方法和准则)
  16. 201521123002《Java程序设计》第14周学习总结
  17. 04面向对象编程-02-原型继承 和 ES6的class继承
  18. webpack 解决 semantic ui 中 google fonts 引用的问题
  19. Spark基础-scala学习(二、面向对象)
  20. .Net转Java.07.IDEA和VS常用操作、快捷键对照表

热门文章

  1. Redis Desktop Manager无法连接虚拟机中启动的redis服务问题排查步骤
  2. git clone 时注意点
  3. CentOS Linux release 7.7.1908 (Core)--rabbitmq用户创建以及相关防火墙端口开启问题
  4. GitHub 热点速览 Vol.24:程序员自我增值,优雅赚零花钱
  5. cb19a_c++_只适合string类型的操作_提取_追加_替换
  6. 10.DRF-认证
  7. JAVA设计模式 2【创建型】原型模式的理解与使用
  8. JDK开发环境的搭建和环境变量的配置
  9. 探索ADC的原理(自制3位并行比较型ADC)
  10. JavaWeb网上图书商城完整项目--25.注册页面之隐藏没有内容的错误信息实现