使用sklearn.model_selection.train_test_split可以在数据集上随机划分出一定比例的训练集和测试集

1.使用形式为:

 from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(train_data,train_target,test_size=0.2, random_state=0)

2.参数解释:

train_data:样本特征集

train_target:样本的标签集

test_size:样本占比,测试集占数据集的比重,如果是整数的话就是样本的数量

random_state:是随机数的种子。在同一份数据集上,相同的种子产生相同的结果,不同的种子产生不同的划分结果

X_train,y_train:构成了训练集

X_test,y_test:构成了测试集

3.举例:

生成一个包含100个样本的数据集,随机换分出20%为测试集

 #py36
#!/usr/bin/env python
# -*- coding: utf-8 -*- #from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split # 生成100条数据:100个2维的特征向量,对应100个标签
X = [["feature ","one "]] * 50 + [["feature ","two "]] * 50
y = [1] * 50 + [2] * 50 # 随机抽取20%的测试集
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=1)
print ("train:",len(X_train), "test:",len(X_test)) # 查看被划分出的测试集
for i in range(len(X_test)):
print ("".join(X_test[i]), y_test[i]) '''
train: 80 test: 20
feature two 2
feature two 2
feature one 1
feature two 2
feature two 2
feature one 1
feature one 1
feature two 2
feature two 2
feature two 2
feature two 2
feature one 1
feature two 2
feature two 2
feature two 2
feature one 1
feature one 1
feature one 1
feature two 2
feature one 1
'''

最新文章

  1. c#.net网页跳转七种方法
  2. javascript event兼容性随笔
  3. windows7下使用telnet
  4. HTML标准事件(包含HTML5)
  5. Linux常用命令总结——文件管理
  6. eclipse中创建类和方法自动注释
  7. Java 脚本引擎
  8. 对于Mongodb数据库的学习
  9. Android 开发TCP协议时,报错NetworkOnMainThreadException
  10. TCP和UDP的优缺点及区别
  11. PHP中的反射
  12. ORACLE升级11g以上之前版本的wm_concat()函数失效
  13. ansys19.0安装破解教程(图文详解)
  14. javascript面试--网络收集
  15. Android自定义View前传-View的三大流程-Measure
  16. Q - Girls and Boys
  17. c语言中如何通过二级指针来操作二维数组
  18. 页面中onclick事件引号问题
  19. 解决Keyboard遮盖输入的几种办法
  20. Kubernetes(k8s)集群部署(k8s企业级Docker容器集群管理)系列之flanneld网络介绍及部署(三)

热门文章

  1. pycahrm安装说明
  2. git 403
  3. [转]The Curse of Dimensionality(维数灾难)
  4. LeetCode110 Balanced Binary Tree
  5. oracle函数 ROW_NUMBER()
  6. HZOJ 随
  7. Eclipsed的SVN插件不能识别之前工作空间的项目
  8. Laravel 5.3 用户验证源码探究 (一) 路由与注册
  9. 2018年NOIP普及组复赛题解
  10. poj 1066 Treasure Hunt (Geometry + BFS)