机器学习PAL数据预处理

本文介绍如何对原始数据进行数据预处理,得到模型训练集和模型预测集。

前提条件

完成数据准备,详情请参见准备数据

操作步骤

  1. 登录PAI控制台
  2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模。在PAI可视化建模页面,单击进入机器学习。                                                                                                                                                                                                                                                       
  3.      
  4. 将组件拖入画布并拼接为实验。
  5. 在左侧菜单栏,单击组件
  6. 在组件列表,选择数据预处理 > 数据合并,将类型转换归一化组件拖入画布。
  7. 在组件列表,将工具下的SQL脚本组件拖入画布,并与准备数据中的读数据表组件拼接为实验,如下图所示。                                                                                                                                                 
  8. 配置组件参数。
  9. 单击画布中的SQL脚本组件,在右侧SQL脚本编辑框中输入SQL语句,将字符型字段转化为数值型。
  10. 单击画布中的类型转换组件,在右侧字段设置页签,单击转换为double类型的列下的选择字段,将所有字段转换为double类型。                                                                                                                   
  11. 单击画布中的归一化组件,在右侧字段设置页签,选择所有字段。
  12. 单击画布上方的运行,运行过程中右键单击组件,可以查看组件的输出。
  13. 在组件列表,选择数据预处理 > 数据合并,将拆分组件拖入画布并与其他组件拼接,单击运行。                                                                                                                                                                       
ii.     select age,
iii.     (case sex when 'male' then 1 else 0 end) as sex,
iv.     (case cp when 'angina' then 0  when 'notang' then 1 else 2 end) as cp,
v.     trestbps,
vi.     chol,
vii.     (case fbs when 'true' then 1 else 0 end) as fbs,
viii.     (case restecg when 'norm' then 0  when 'abn' then 1 else 2 end) as restecg,
ix.     thalach,
x.     (case exang when 'true' then 1 else 0 end) as exang,
xi.     oldpeak,
xii.     (case slop when 'up' then 0  when 'flat' then 1 else 2 end) as slop,
xiii.     ca,
xiv.     (case thal when 'norm' then 0  when 'fix' then 1 else 2 end) as thal,
xv.     (case status  when 'sick' then 1 else 0 end) as ifHealth
from  ${t1};

拆分组件默认将原始数据按4:1拆分为模型训练集和模型预测集。您也可以单击拆分组件,在右侧参数设置页签,设置切分比例

后续步骤

完成数据预处理后,需要进行数据可视化,详情请参见数据可视化

最新文章

  1. FreeMarker 一二事 - 静态模板结合spring展示
  2. ubuntu搭建lnmp
  3. Oracle中SAVEPOINT和ROLLBACK用法
  4. iOS极光推送集成步骤
  5. iOS--NSAttributedString使用介绍
  6. JS学习笔记-数组
  7. cf459C Pashmak and Buses
  8. BZOJ 2253: [2010 Beijing wc]纸箱堆叠
  9. 设计模式值六大原则——里氏替换原则(LSP)
  10. GOLang(数组操作随篇)
  11. 完善chrome翻译插件ChaZD,支持有道智云api
  12. 老男孩Python全栈开发(92天全)视频教程 自学笔记18
  13. 关于安装 Microsoft Office
  14. 【*】CAS 是什么,Java8是如何优化 CAS 的
  15. classloader trace
  16. Http TCP/IP协议和socket之间的区别和联系
  17. Search in Rotated Sorted Array leetcode java
  18. PAT L1-015 跟奥巴马一起画方块
  19. 第4章 Vim编辑器与Shell命令脚本
  20. Python基础学习总结(五)

热门文章

  1. addslashes,htmlspecialchars,htmlentities转换或者转义php特殊字符防止xss攻击以及sql注入
  2. linux 安装rabbitMQ详细教程
  3. 从苏宁电器到卡巴斯基第26篇:难忘的三年硕士时光 IV
  4. hdu4067 费用流(混合欧拉的宽展和延伸)
  5. hdu3074 线段树求区间乘积(单点更新)
  6. POJ3122贪心或者二分(分蛋糕)
  7. Newtonsoft.Json的使用整理
  8. 项目展示$\alpha$
  9. .Net Core导入千万级数据至Mysql
  10. CSS变量和浏览器前缀