数据集划分:

  机器学习一般的数据集会划分为两个部分

训练数据:

  用于训练,构建模型

测试数据:

  在模型检验时使用,用于评估模型是否有效

sklearn数据集划分API:

代码示例文末!

scikit-learn数据集API:

获取数据集的返回类型:

数据集进行分割:

代码示例:

 import os
from sklearn.datasets import load_iris, fetch_20newsgroups, load_boston
from sklearn.model_selection import train_test_split li = load_iris() # sklearn库具有获取数据的接口 print(li.data) # 获取特征值
print()
# 0、1、2分别代表鸾尾花的三个类别
print(li.target) #获取目标值 print(li.DESCR) # 打印描述,150个样本,四个特征,三个类别 print(li.feature_names) # 特征明
print(li.target_names) # 标签类别名 # 注意返回值: 训练集train,x_train,y_train,测试集test,x_test,y_test
# x_train为训练集的特征值,y_train为训练集的目标值,x_test为测试集的特征值,y_test为测试集的目标值
# 注意,接收参数的顺序固定
# 训练集占75%,测试集占25%
x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
print('训练集的特征值和目标值:', x_train, y_train)
print('测试集的特征值和目标值:', x_test, y_test) # 获取新闻数据,all代表下载所有,训练集和测试集都下载,data_home保存的路径
news = fetch_20newsgroups(data_home=os.path.curdir, subset='all')
print(news.data)
print(news.target) lb = load_boston() # 回归数据
print('获取特征值')
print(lb.data)
print('目标值')
print(lb.target)
print(lb.DESCR)

最新文章

  1. 人之初,性本动 - G2 2.1 发布
  2. php实现设计模式之 解释器模式
  3. 白话debounce和throttle
  4. 【BZOJ3673】&&【BZOJ3674】: 可持久化并查集 by zky 可持久化线段树
  5. Bootstrap (导航、标签、面包屑导航)
  6. solr与.net系列课程(九)solr5.1的配置
  7. SQL2012数据库加密方法
  8. 加密 bouncy castle
  9. 2.1:你的第一个AngularJS App
  10. 【JDBC】向数据表插入数据时,自动获取生成的主键
  11. js ajax上传图片到服务器
  12. android 弹出框(输入框和选择框)
  13. Reactor Cooling
  14. GitHub 使用手册 - 基础篇
  15. 4个常用的HTTP安全头部
  16. Cartographer源码阅读(8):imu_tracker
  17. intelij idea模板
  18. centos 6 下,zephir的安装和使用
  19. Redis学习---Redis操作之有序集合
  20. 华为S5300系列升级固件S5300SI-V100R005C00SPC100.cc

热门文章

  1. nodejs基础 用http模块 搭建一个简单的web服务器 响应JSON、html
  2. 7.26T2某不科学的迷你激光炮
  3. 使用appium+python做UI自动化的demo
  4. setjmp
  5. 二十八、CentOS系统光盘安装、anaconda概述
  6. codeforces gym #101161F-Dictionary Game(字典树+树上删边游戏)
  7. Robot Framework(十九) 附录
  8. ForkJoinPool 源码分析
  9. Jetson TK下如何写汇编语言
  10. context_processor 上下文处理器