1.截止到本文(20191104)sklearn没有集成xgboost算法,需要单独安装xgboost库,然后导入使用

xgboost官网安装说明

Pre-built binary wheel for Python

在源码git页面下载包,然后手动安装。

如何安装包

2.xgboost读取文件的格式?

xgboost的数据输入数据格式DMatrix目前支持两种数据格式:LibSVM和CSV

libsvm数据格式

xgboost可以从libsvm、csv、numpy array、dataframe、xgboost binary buffer file载入训练数据

读入后,数据存储在DMatrix目标文件中。

3.xgboost模型的训练及预测过程?

第一种形式:

xgboost原生接口的实现方法

import xgboost as xgb
# read in data
dtrain = xgb.DMatrix('demo/data/agaricus.txt.train')
dtest = xgb.DMatrix('demo/data/agaricus.txt.test')
# specify parameters via map
param = {'max_depth':2, 'eta':1, 'objective':'binary:logistic' }
num_round = 2
bst = xgb.train(param, dtrain, num_round)
# make prediction
preds = bst.predict(dtest)

第二种形式:

xgboost的sklearn接口,来实现一些模型训练、拟合、效果展示的功能

import xgboost as xgb
import numpy as np
from sklearn.model_selection import KFold, train_test_split, GridSearchCV
from sklearn.metrics import confusion_matrix, mean_squared_error
from sklearn.datasets import load_iris, load_digits, load_boston
digits = load_digits(2)
y = digits['target']
X = digits['data']
kf = KFold(n_splits=2, shuffle=True, random_state=rng)
for train_index, test_index in kf.split(X):
  xgb_model = xgb.XGBClassifier().fit(X[train_index], y[train_index])
  predictions = xgb_model.predict(X[test_index])
  actuals = y[test_index]

  print(confusion_matrix(actuals, predictions))

xgb.XGBClassifier().fit()和xgb.train()的区别?

https://blog.csdn.net/mr_muli/article/details/84798847

第二种形式中的几种用法:

xgboost.XGBRegressor(), implementation of the skleran api for xgboost regression

xgboost.XGBClassifier(), implementation of the skleran api for xgboost classification

xgboost.XGBRanker(), implementation of the sklearn api for xgboost ranking

xgboost.XGBRFRegressor() ,sklearn api for xgboost random forest regression

xgboost.XGBRFClassifier(), SKlearn api for xgboost random forest classification

https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn

4.为什么xgboost有时预测结果为0/1,有时预测结果为概率值?

注意objective变量的设置,不同的设置最后模型预测的结果返回的内容是不一样的。

https://www.cnblogs.com/wzdLY/p/9831282.html

XGBoost参数调优完全指南

xgboost的两种训练方式,以及不同的objective的影响

xgboost不同训练方式,及grid search调参方法

5.XGBoost的训练数据格式是ndarray,如果是dataframe的形式要先转换为ndarray(df.values)

6. XGBoost整体流程:

变量处理/特征工程/特征选择/特征变换

grid search或者随机网格搜索

  cross validation(sklearn K折交叉验证):

    三类参数(general parameters/booster parameters/task parameters)

    每个模型的roc曲线/auc值/ks值/精确值

参考资料:

用xgboost做分类,预测结果输出的为什么不是类别概率?

模型融合--XGBoost

四个xgb模型融合拿下金融风控冠军,是如何做特征工程的?

最新文章

  1. HTML DOM Event 对象
  2. AngularJs ngClass、ngClassEven、ngClassOdd、ngStyle
  3. Spring Boot 实践折腾记(三):三板斧,Spring Boot下使用Mybatis
  4. C#的 构造函数 和 方法重载
  5. UVALive 3486/zoj 2615 Cells(栈模拟dfs)
  6. Android 实用代码七段(三)
  7. Android 小闹钟程序
  8. Windows系统下的TCP参数优化
  9. 百练2755 奇妙的口袋 【深搜】or【动规】or【普通递归】or【递推】
  10. hdoj分类
  11. 彩色图像--色彩空间 HSI(HSL)、HSV(HSB)
  12. How to:如何在调用外部文件时调试文件路径(常见于使用LaunchAppAndWait和LaunchApp函数)
  13. Properties类随笔
  14. 将 C# 枚举反序列化为 JSON 字符串 实践
  15. iOS----------常见经典错误
  16. 阿里云oss c# api 的使用 的使用
  17. B - Alyona and towers CodeForces - 739C
  18. Oracle课程档案,第十六天
  19. [C++ Primer Plus] 第7章、函数(二)课后习题
  20. golang 自定义json解析

热门文章

  1. sublime中设置scala编译运行
  2. 计算机网络(4): socket select使用:聊天室模版
  3. 01 语言基础+高级:1-6 集合_day04【Map】
  4. Maven高级:01.maven分模块构建&&02.私服的应用
  5. i++ 和 ++i 的区别和实现
  6. Codeforces Round #555 (Div. 3) B. Long Number 【仔细读题】
  7. macos上命令行查看磁盘序列号
  8. p2p gossip 结构化 非结构化
  9. IntelliJ IDEA2018.2.7安装和破解教程
  10. c语言中getchar的用法