ML 数据集可以包含数亿个数据点,每个数据点由数百(甚至数千)的特征组成,几乎不可能以直观的方式了解整个数据集。为帮助理解、分析和调试 ML 数据集,谷歌开源了 Facets,一款可视化工具。

Facets 包含两个部分 —— Facets Overview 和 Facets Dive ,允许用户以不同的粒度查看其数据的整体图像。Facets Overview 可用于可视化数据的每一个特征,Facets Dive 用来探索个别的数据观察集。

可视化的部分是通过(https://www.polymer-project.org)Polymer web components来实现的。后来采用的开发语言是TS(可恶,为啥不是JS,还要去学习)。

而且,很容易的就可以嵌入到jupyter notebooks(使用python的我乐了)或者嵌入到web网页中。

具体的demo可以访问网页:https://pair-code.github.io/facets/

Facets Overview 可以让用户快速了解其数据集特征值的分布情况,可以在相同的可视化上比较多个数据集,例如训练集和测试集。阻碍机器学习的常见数据问题被推到最前端,比如出乎意料的特征值、具有高比例遗失值的特征、带有不平衡分布的特征,数据集之间的特征分布偏差等等。

Facets Dive 则提供了一个易于定制的直观界面,用于探索数据集中不同特征数据点之间的关系。它是一种交互式探索多达数万个数据点的工具,允许用户在高级概述和低级细节之间进行无缝切换。通过 Facets Dive,你可以控制位置、颜色和视觉表现。每个示例在可视化中被表示为单个项目,并且可以通过其特征值在多个维度上通过 faceting/bucketing 来定位点。通过结合细分和过滤,Dive 可以轻松地在复杂数据集中识别样式和异常值。

最新文章

  1. bzoj1901--树状数组套主席树
  2. hiveserver2以及beeline客户端的使用
  3. 关于我们DOM的知识点
  4. Objective-C ,ios,iphone开发基础:picker控件详解与使用,(实现省市的二级联动)
  5. 四、mysql内置函数
  6. java的"=="与"equals"
  7. aix创建lv 在lv上创建文件系统
  8. Simpson积分(BZOJ2178)
  9. 15.scrapy模拟登陆案例
  10. mybatis二(参数处理和map封装及自定义resultMap)
  11. spring获取配制文件的参数
  12. MVC part3
  13. 深入理解java虚拟机---java内存区域与内存溢出异常---2堆栈溢出
  14. mysql服务器硬件配置选择参考
  15. 深入浅出MySQL-DDL语句
  16. The 15th UESTC Programming Contest Preliminary C - C0ins cdoj1554
  17. 学习做爬虫-vs2017
  18. 孤荷凌寒自学python第八十六天对selenium模块进行较详细的了解
  19. BurpSuite—-Sequencer模块(定序器)
  20. Manipulating Files

热门文章

  1. 个人作业4——alpha阶段个人总结(201521123103 吴雅娟)
  2. JVM(2)——GC算法和收集器
  3. 从零开始配置Jenkins(一)——基本配置
  4. Ubuntu如何进入命令模式
  5. Linux杂技
  6. spring笔记(一)
  7. thrift的lua
  8. hdu 3496 Watch The Movie (二维背包)
  9. P3509 [POI2010]ZAB-Frog
  10. 有用的Java注解