使用Sklearn-train_test_split 划分数据集
2024-08-31 12:44:35
使用sklearn.model_selection.train_test_split可以在数据集上随机划分出一定比例的训练集和测试集
1.使用形式为:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(train_data,train_target,test_size=0.2, random_state=0)
2.参数解释:
train_data:样本特征集
train_target:样本的标签集
test_size:样本占比,测试集占数据集的比重,如果是整数的话就是样本的数量
random_state:是随机数的种子。在同一份数据集上,相同的种子产生相同的结果,不同的种子产生不同的划分结果
X_train,y_train:构成了训练集
X_test,y_test:构成了测试集
3.举例:
生成一个包含100个样本的数据集,随机换分出20%为测试集
#py36
#!/usr/bin/env python
# -*- coding: utf-8 -*- #from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split # 生成100条数据:100个2维的特征向量,对应100个标签
X = [["feature ","one "]] * 50 + [["feature ","two "]] * 50
y = [1] * 50 + [2] * 50 # 随机抽取20%的测试集
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=1)
print ("train:",len(X_train), "test:",len(X_test)) # 查看被划分出的测试集
for i in range(len(X_test)):
print ("".join(X_test[i]), y_test[i]) '''
train: 80 test: 20
feature two 2
feature two 2
feature one 1
feature two 2
feature two 2
feature one 1
feature one 1
feature two 2
feature two 2
feature two 2
feature two 2
feature one 1
feature two 2
feature two 2
feature two 2
feature one 1
feature one 1
feature one 1
feature two 2
feature one 1
'''
最新文章
- c#.net网页跳转七种方法
- javascript event兼容性随笔
- windows7下使用telnet
- HTML标准事件(包含HTML5)
- Linux常用命令总结——文件管理
- eclipse中创建类和方法自动注释
- Java 脚本引擎
- 对于Mongodb数据库的学习
- Android 开发TCP协议时,报错NetworkOnMainThreadException
- TCP和UDP的优缺点及区别
- PHP中的反射
- ORACLE升级11g以上之前版本的wm_concat()函数失效
- ansys19.0安装破解教程(图文详解)
- javascript面试--网络收集
- Android自定义View前传-View的三大流程-Measure
- Q - Girls and Boys
- c语言中如何通过二级指针来操作二维数组
- 页面中onclick事件引号问题
- 解决Keyboard遮盖输入的几种办法
- Kubernetes(k8s)集群部署(k8s企业级Docker容器集群管理)系列之flanneld网络介绍及部署(三)