【机器学习】在R#语言之中使用XGBoost进行分类

文章阅读目录大纲

估计阅读时长: 9 分钟

https://github.com/xieguigang/sciBASIC

在实际应用的机器学习方法里，GradientTree Boosting （GBDT）是一个在很多应用里都很出彩的技术。XGBoost是一套提升树可扩展的机器学习系统。XGBoost全名叫（eXtreme Gradient Boosting）极端梯度提升。它是大规模并行boosted tree的工具，XGBoost 所应用的算法就是 GBDT（gradient boosting decision tree）的改进，既可以用于分类也可以用于回归问题中。

Tree boosting is a highly effective and widely used machine learning method. In this paper, we describe a scalable endto-end tree boosting system called XGBoost, which is used widely by data scientists to achieve state-of-the-art results on many machine learning challenges. We propose a novel sparsity-aware algorithm for sparse data and weighted quantile sketch for approximate tree learning. More importantly, we provide insights on cache access patterns, data compression and sharding to build a scalable tree boosting system. By combining these insights, XGBoost scales beyond billions of examples using far fewer resources than existing systems.

Tianqi Chen and Carlos Guestrin. 2016. XGBoost: A Scalable Tree Boosting System. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16). Association for Computing Machinery, New York, NY, USA, 785–794. DOI:https://doi.org/10.1145/2939672.2939785

在R#脚本之中使用XGBoost

在R#环境中，已经默认集成了XGBoost方法，可以直接使用机器学习工具包之中的XGBoost模块来进行相应的建模以及预测分析：

imports "xgboost" from "MLkit";

Booster Parameters（模型参数）

在R#脚本中调用XGBoost方法进行建模，可以通过一些参数来进行算法的调整。下面的代码中列举出来了XGBoost算法所需要的所有可选的参数以及对应的默认参数值：

const params = list(
    'early_stopping_rounds' = 10,
    'maximize'              = TRUE,
    'eval_metric'           = 'auc',
    'loss'                  = 'logloss',
    'eta'                   = 0.3,
    'num_boost_round'       = 20,
    'max_depth'             = 7,
    'scale_pos_weight'      = 1.,
    'subsample'             = 0.8,
    'colsample'             = 0.8,
    'min_child_weight'      = 1.,
    'min_sample_split'      = 5,
    'reg_lambda'            = 1.,
    'gamma'                 = 0.
);

下面为上面的参数的含义，大家在使用这个程序包的时候，可以作为参数调整的参考：

eta [default=0.3]:shrinkage参数，用于更新叶子节点权重时，乘以该系数，避免步长过大。参数值越大，越可能无法收敛。把学习率 eta 设置的小一些，小学习率可以使得后面的学习更加仔细。
min_child_weight [default=1]:这个参数默认是 1，是每个叶子里面 h 的和至少是多少，对正负样本不均衡时的 0-1 分类而言，假设 h 在 0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100 个样本。这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。
max_depth [default=6]: 每颗树的最大深度，树高越深，越容易过拟合。
gamma [default=0]：后剪枝时，用于控制是否后剪枝的参数。
subsample [default=1]：样本随机采样，较低的值使得算法更加保守，防止过拟合，但是太小的值也会造成欠拟合。
colsample [default=1]：列采样，对每棵树的生成用的特征进行列采样.一般设置为： 0.5-1
reg_lambda [default=1]：控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。
scale_pos_weight [default=1]：如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。
eval_metric [ default according to objective ]：The metric to be used for validation data. The default values are rmse for regression and error for classification. Typical values are:
- rmse – root mean square error
- mae – mean absolute error
- logloss – negative log-likelihood
- error – Binary classification error rate (0.5 threshold)
- merror – Multiclass classification error rate
- mlogloss – Multiclass logloss
- auc: Area under the curve

创建数据集

在R#脚本中的XGBoost程序包内，数据集分为三种类型：训练数据集，验证数据集以及样本数据集。这三种数据集都可以统一的通过同一个函数来生成：

let xgb.DMatrix as function(data,
                            label                = NULL,
                            validate_set         = FALSE,
                            categorical_features = NULL) {
}

如果我们在使用上面的函数的时候，label默认为空，则会创建样本数据集（用于进行实际生产中的分类计算操作），例如：

xgb.DMatrix(read.csv("./ftest.csv", row.names = NULL, check.names = FALSE));

如果label参数不为空的话，则会根据validate_set参数来决定生成验证数据集还是训练数据集。很直观的，validate_set为TRUE的时候，生成验证数据集，反之生成训练数据集：

# training set
xgb.DMatrix(ftrain[, 1:(ncol(ftrain)-1)], label = ftrain[, ncol(ftrain)], categorical_features = ["PRI_jet_num"]);
# validation set
xgb.DMatrix(fval[, 1:(ncol(fval)-1)], label = fval[, ncol(fval)], validate_set = TRUE);

执行XGBoost

那，现在既然我们有了参数以及数据集对象了，就可以进行XGBoost训练建模了：

let model = xgboost(training_set, validation_set, params);

# save model tree to file
model
|> xgboost::serialize
|> writeLines('./tgb.txt')
;

在上面的示例脚本中，我们基于训练数据集以及验证数据集进行XGBoost模型的训练。之后呢，就可以通过xgboost包之中的serialize函数将模型树进行序列化为文本文件进行保存和后续计算分析的模型复用了。如果我们需要从保存的文件中加载模型呢，使用xgboost::parseTree方法就可以了。对于使用已经训练好的xgboost模型，我们可以使用predict函数来进行样本数据集的分类预测计算：

# testing phase
let ftest = read.csv( "./test.csv", row.names = NULL, check.names = FALSE);
let testLabels = ftest[, "Label"];

ftest[, "Label"] = NULL;

# load model and predict
let result_pred = readLines('./tgb.model')
|> xgboost::parseTree
|> xgboost::predict(xgb.DMatrix(ftest))
;

data.frame(predict = result_pred, label = testLabels)
|> write.csv(file = foutput2, row.names = FALSE)
;

在这个测试中，我们将预测的分类得分结果以及对应的真实标签结果放在一个表格文件之中，用于后续的ROC曲线分析，用来评估看看再R#程序包中所实现的XGBoost算法的预测准确度有多高。

XGBoost预测结果的ROC曲线

从之前的测试结果脚本中，我们将预测结果与对应的真实标签都放在一起了。现在我们可以基于这两个向量数据进行XGBoost分类器的分类性能ROC曲线的可视化：

imports "validation" from "MLkit";

let data = read.csv(file = "test_result2.csv", row.names = NULL);
let pred = prediction(data[, "predict"], data[, "label"]);

str(data);

print(head(data));
print(`AUC = ${AUC(pred)}`);

bitmap(file = relative_work("ROC.png")) {
    plot(pred);
}

从ROC曲线可以看得出来，XGBoost方法进行分类预测的准确度接近于90%，AUC值已经非常高了。

XGBoost: A Scalable Tree Boosting System
下载论文原文PDF

Author
Recent Posts

谢桂纲

高级数据科学家 at 苏州帕诺米克

Working on Engineered bacteria CAD design on its genome from scratch. Writing scientific computing software for Tianhe & Sunway TaihuLight supercomputer. Do scientific computing programming in R/R# language, he is also the programming language designer of the R# language on the .NET runtime.

Attachments

ROC • 2 MB • 706 click
2021年9月5日
run-TGBoost • 64 kB • 716 click
2021年9月5日
TGBoost-ROC • 45 kB • 722 click
2021年9月5日
XGBoost • 2 MB • 752 click
2021年9月5日

XGBoost: A Scalable Tree Boosting System
v2-7d6a1bf001b1b638dea27ca5abc5e936_1440w • 304 kB • 725 click
2021年9月5日

打赏赞(9)

algorithm dotnet-core machine learning math R#rsharp tgboost VisualBasic xgboost

No responses yet

Leave a Reply Cancel reply

March 2026
S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
单细胞视角下的微生物基因组代谢酶嵌入分析 – この中二病に爆焔を！ on 通过diamond软件进行blastp搜索2026年2月25日
[…] 我们在基于前面所论述的《通过diamond软件进行blastp搜索》对大规模的基因组数据进行了代谢酶的EC number的注释以及按照文章《基因组功能注释（EC Number）的向量化嵌入》的方法，得到了一个比较大的基因组代谢酶TF-IDF嵌入丰度矩阵后，如果将这里所得到的嵌入结果矩阵中的基因组，基于Family层级的物种分类分组看作为单细胞转录数据中的细胞分群结果，能否基于单细胞数据分析方法来分析和可视化我的基因组功能嵌入的结果矩阵呢？ […]
基因组代谢酶层级嵌入 – この中二病に爆焔を！ on 酶EC编号结构解析2026年2月23日
[…] 对于基于ec number来生成层级数据，我们直接使用《酶EC编号结构解析》文章末尾所展示的层级数据生成函数来实现。 […]
二叉树聚类可视化微生物群落代谢差异 – この中二病に爆焔を！ on 基因组功能注释（EC Number）的向量化嵌入2026年2月15日
[…] 在前面的一篇《基因组功能注释（EC Number）的向量化嵌入》博客文章中，针对所注释得到的微生物基因组代谢信息，进行基于TF-IDF的向量化嵌入之后。为了可视化向量化嵌入的效果，通过UMAP进行降维，然后基于降维的结果进行散点图可视化。通过散点图可视化可以发现向量化的嵌入结果可以比较好的将不同物种分类来源的微生物基因组区分开来。 […]
谢桂纲 on 通过diamond软件进行blastp搜索2026年2月15日
😲啊？

【机器学习】在R#语言之中使用XGBoost进行分类

https://github.com/xieguigang/sciBASIC

在R#脚本之中使用XGBoost

Booster Parameters（模型参数）

创建数据集

执行XGBoost

XGBoost预测结果的ROC曲线

Attachments

Related

No responses yet

Leave a Reply Cancel reply

Recent Posts

Archives

博客文章

【机器学习】在R#语言之中使用XGBoost进行分类

https://github.com/xieguigang/sciBASIC

在R#脚本之中使用XGBoost

Booster Parameters（模型参数）

创建数据集

执行XGBoost

XGBoost预测结果的ROC曲线

Order by Date Name Attachments

Related

No responses yet

Leave a Reply Cancel reply

Recent Posts

Archives

博客文章

Tags

Attachments