您当前的位置：首页 >> 聚焦 > >>

视讯！【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）

来源: 时间：2022-12-29 10:20:02

本文是中国大学慕课《机器学习》的“集成学习”章节的课后代码。

【资料图】
课程地址：
https://www.icourse163.org/course/WZU-1464096179
课程完整代码：
https://github.com/fengdu78/WZU-machine-learning-course
代码修改并注释：黄海广，haiguang2000@wzu.edu.cn

importwarningswarnings.filterwarnings("ignore")importpandasaspdfromsklearn.model_selectionimporttrain_test_split

生成数据

生成12000行的数据，训练集和测试集按照3:1划分

fromsklearn.datasetsimportmake_hastie_10_2data,target=make_hastie_10_2()

X_train,X_test,y_train,y_test=train_test_split(data,target,random_state=123)X_train.shape,X_test.shape

((9000, 10), (3000, 10))

模型对比

对比六大模型，都使用默认参数

fromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.ensembleimportGradientBoostingClassifierfromxgboostimportXGBClassifierfromlightgbmimportLGBMClassifierfromsklearn.model_selectionimportcross_val_scoreimporttimeclf1=LogisticRegression()clf2=RandomForestClassifier()clf3=AdaBoostClassifier()clf4=GradientBoostingClassifier()clf5=XGBClassifier()clf6=LGBMClassifier()forclf,labelinzip([clf1,clf2,clf3,clf4,clf5,clf6],["LogisticRegression","RandomForest","AdaBoost","GBDT","XGBoost","LightGBM"]):start=time.time()scores=cross_val_score(clf,X_train,y_train,scoring="accuracy",cv=5)end=time.time()running_time=end-startprint("Accuracy:%0.8f (+/-%0.2f),耗时%0.2f秒。模型名称[%s]"%(scores.mean(),scores.std(),running_time,label))

Accuracy: 0.47488889 (+/- 0.00),耗时0.04秒。模型名称[Logistic Regression]Accuracy: 0.88966667 (+/- 0.01),耗时16.34秒。模型名称[Random Forest]Accuracy: 0.88311111 (+/- 0.00),耗时3.39秒。模型名称[AdaBoost]Accuracy: 0.91388889 (+/- 0.01),耗时13.14秒。模型名称[GBDT]Accuracy: 0.92977778 (+/- 0.00),耗时3.60秒。模型名称[XGBoost]Accuracy: 0.93188889 (+/- 0.01),耗时0.58秒。模型名称[LightGBM]

对比了六大模型，可以看出，逻辑回归速度最快，但准确率最低。而LightGBM，速度快，而且准确率最高，所以，现在处理结构化数据的时候，大部分都是用LightGBM算法。

XGBoost的使用 1.原生XGBoost的使用

importxgboostasxgb#记录程序运行时间importtimestart_time=time.time()#xgb矩阵赋值xgb_train=xgb.DMatrix(X_train,y_train)xgb_test=xgb.DMatrix(X_test,label=y_test)##参数params={"booster":"gbtree",#"silent":1,#设置成1则没有运行信息输出，最好是设置为0.#"nthread":7,#cpu线程数默认最大"eta":0.007,#如同学习率"min_child_weight":3,#这个参数默认是1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言#，假设 h 在0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。"max_depth":6,#构建树的深度，越大越容易过拟合"gamma":0.1,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。"subsample":0.7,#随机采样训练样本"colsample_bytree":0.7,#生成树时进行的列采样"lambda":2,#控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。#"alpha":0,#L1正则项参数#"scale_pos_weight":1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。#"objective":"multi:softmax",#多分类的问题#"num_class":10,#类别数，多分类与multisoftmax并用"seed":1000,#随机种子#"eval_metric":"auc"}plst=list(params.items())num_rounds=500#迭代次数watchlist=[(xgb_train,"train"),(xgb_test,"val")]

#训练模型并保存#early_stopping_rounds当设置的迭代次数较大时，early_stopping_rounds可在一定的迭代次数内准确率没有提升就停止训练model=xgb.train(plst,xgb_train,num_rounds,watchlist,early_stopping_rounds=100,)#model.save_model("./model/xgb.model")#用于存储训练出的模型print("bestbest_ntree_limit",model.best_ntree_limit)y_pred=model.predict(xgb_test,ntree_limit=model.best_ntree_limit)print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))#输出运行时长cost_time=time.time()-start_timeprint("xgboostsuccess!","\n","costtime:",cost_time,"(s)......")

[0]train-rmse:1.11000val-rmse:1.10422[1]train-rmse:1.10734val-rmse:1.10182[2]train-rmse:1.10465val-rmse:1.09932[3]train-rmse:1.10207val-rmse:1.09694

……

[497]train-rmse:0.62135val-rmse:0.68680[498]train-rmse:0.62096val-rmse:0.68650[499]train-rmse:0.62056val-rmse:0.68624best best_ntree_limit 500error=0.826667xgboost success!  cost time: 3.5742645263671875 (s)......

2.使用scikit-learn接口

会改变的函数名是：

eta -> learning_rate

lambda -> reg_lambda

alpha -> reg_alpha

fromsklearn.model_selectionimporttrain_test_splitfromsklearnimportmetricsfromxgboostimportXGBClassifierclf=XGBClassifier(# silent=0, #设置成1则没有运行信息输出，最好是设置为0.是否在运行升级时打印消息。#nthread=4,#cpu线程数默认最大learning_rate=0.3,#如同学习率min_child_weight=1,#这个参数默认是1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言#，假设 h 在0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。max_depth=6,#构建树的深度，越大越容易过拟合gamma=0,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。subsample=1,#随机采样训练样本训练实例的子采样比max_delta_step=0,#最大增量步长，我们允许每个树的权重估计。colsample_bytree=1,#生成树时进行的列采样reg_lambda=1,#控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。#reg_alpha=0,#L1正则项参数#scale_pos_weight=1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。平衡正负权重#objective="multi:softmax",#多分类的问题指定学习任务和相应的学习目标#num_class=10,#类别数，多分类与multisoftmax并用n_estimators=100,#树的个数seed=1000#随机种子#eval_metric="auc")clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.936

LIghtGBM的使用 1.原生接口

importlightgbmaslgbfromsklearn.metricsimportmean_squared_error#加载你的数据#print("Loaddata...")#df_train=pd.read_csv("../regression/regression.train",header=None,sep="\t")#df_test=pd.read_csv("../regression/regression.test",header=None,sep="\t")##y_train=df_train[0].values#y_test=df_test[0].values#X_train=df_train.drop(0,axis=1).values#X_test=df_test.drop(0,axis=1).values#创建成lgb特征的数据集格式lgb_train=lgb.Dataset(X_train,y_train)#将数据保存到LightGBM二进制文件将使加载更快lgb_eval=lgb.Dataset(X_test,y_test,reference=lgb_train)#创建验证数据#将参数写成字典下形式params={"task":"train","boosting_type":"gbdt",#设置提升类型"objective":"regression",#目标函数"metric":{"l2","auc"},#评估函数"num_leaves":31,#叶子节点数"learning_rate":0.05,#学习速率"feature_fraction":0.9,#建树的特征选择比例"bagging_fraction":0.8,#建树的样本采样比例"bagging_freq":5,#k意味着每k次迭代执行bagging"verbose":1#<0显示致命的,=0显示错误(警告),>0显示信息}print("Starttraining...")#训练cvandtraingbm=lgb.train(params,lgb_train,num_boost_round=500,valid_sets=lgb_eval,early_stopping_rounds=5)#训练数据需要参数列表和数据集print("Savemodel...")gbm.save_model("model.txt")#训练后保存模型到文件print("Startpredicting...")#预测数据集y_pred=gbm.predict(X_test,num_iteration=gbm.best_iteration)#如果在训练期间启用了早期停止，可以通过best_iteration方式从最佳迭代中获得预测#评估模型print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))

Start training...[LightGBM] [Warning] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000448 seconds.You can set `force_col_wise=true` to remove the overhead.[LightGBM] [Info] Total Bins 2550[LightGBM] [Info] Number of data points in the train set: 9000, number of used features: 10[LightGBM] [Info] Start training from score 0.012000[1]valid_0"s auc: 0.814399valid_0"s l2: 0.965563Training until validation scores don"t improve for 5 rounds[2]valid_0"s auc: 0.84729valid_0"s l2: 0.934647[3]valid_0"s auc: 0.872805valid_0"s l2: 0.905265[4]valid_0"s auc: 0.884117valid_0"s l2: 0.877875[5]valid_0"s auc: 0.895115valid_0"s l2: 0.852189

……

[191]valid_0"s auc: 0.982783valid_0"s l2: 0.319851[192]valid_0"s auc: 0.982751valid_0"s l2: 0.319971[193]valid_0"s auc: 0.982685valid_0"s l2: 0.320043Early stopping, best iteration is:[188]valid_0"s auc: 0.982794valid_0"s l2: 0.319746Save model...Start predicting...error=0.664000

2.scikit-learn接口

fromsklearnimportmetricsfromlightgbmimportLGBMClassifierclf=LGBMClassifier(boosting_type="gbdt",#提升树的类型gbdt,dart,goss,rfnum_leaves=31,#树的最大叶子数，对比xgboost一般为2^(max_depth)max_depth=-1,#最大树的深度learning_rate=0.1,#学习率n_estimators=100,#拟合的树的棵树，相当于训练轮数subsample_for_bin=200000,objective=None,class_weight=None,min_split_gain=0.0,#最小分割增益min_child_weight=0.001,#分支结点的最小权重min_child_samples=20,subsample=1.0,#训练样本采样率行subsample_freq=0,#子样本频率colsample_bytree=1.0,#训练特征采样率列reg_alpha=0.0,#L1正则化系数reg_lambda=0.0,#L2正则化系数random_state=None,n_jobs=-1,silent=True,)clf.fit(X_train,y_train,eval_metric="auc")#设置验证集合verbose=False不打印过程clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.927

参考

1.https://xgboost.readthedocs.io/

2.https://lightgbm.readthedocs.io/

3.https://blog.csdn.net/q383700092/article/details/53763328?locationNum=9&fps=1

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码

标签：

精彩推送

视讯！【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）

本文是中国大学慕课《机器学习》的“集成学习”章节的课后代码。课程地址：https: www icourse163 org course WZU-1464096

来源：时间：2022-12-29 10:20:02
世界短讯！兄弟俩替父追债被判寻衅滋事重审：刑期不变，仍不构虚假诉讼罪

林树明受访者供图12月28日，辽宁省鞍山市岫岩县退休教师林树明告诉澎湃新闻（www thepaper cn），他和...

来源：时间：2022-12-28 18:08:48
焦点速递！广电计量（002967）12月28日主力资金净卖出823.26万元

截至2022年12月28日收盘，广电计量(002967)报收于16 6元，下跌4 16%，换手率0 87%，成交量4 48万手，成交额7516 82万元。

来源：时间：2022-12-28 15:26:18
美年健康12月28日盘中涨停焦点

以下是美年健康在北京时间12月28日11:21分盘口异动快照：12月28日11点21分，美年健康盘中涨停，报6 27...

来源：时间：2022-12-28 11:13:04
环球新资讯：【财经分析】2022年巴西股市“零IPO” 市场乐观看待来年国际投资前景

2022年是巴西圣保罗证券期货交易所1998年来首次没有进行IPO（首次公开发行）的年份。专家认为，基础设施...

来源：时间：2022-12-28 07:54:34
山东路桥(000498.SZ)：子公司拟收购高速越南公司70%股权和相关债权

格隆汇12月27日丨山东路桥公布，为加强东南亚基础设施建设市场开发力度，优化区域资源配置，公司子公司...

来源：时间：2022-12-27 20:06:36
中成股份主力资金持续净流入，3日共净流入1190.55万元热点

中成股份12月27日DDE大单资金(主力资金)净流入109 22万元，两市排名1247 4901。近3日中成股份主力资金...

来源：时间：2022-12-27 16:08:56
涨停雷达：体检个股异动美年健康触及涨停|全球观焦点

（原标题：涨停雷达：体检个股异动美年健康触及涨停）今日走势：美年健康（002044）今日触及涨停板，该...

来源：时间：2022-12-27 11:26:17
71岁张纪中感染新冠第九天，症状越来越重，表情痛苦吞咽困难全球时讯

近日，71岁张纪中被爆感染了新冠，如今已经第九天了。他的症状不但没有减轻反而是越来越重。张纪中表示...

来源：时间：2022-12-27 06:03:00
劲拓股份最新公告：拟2000万元参设合伙企业投资半导体产业内具备高成长性标的

劲拓股份公告，公司拟2000万元参设合伙企业，投资半导体产业内具备高成长性标的。截至2022年12月26日收...

来源：时间：2022-12-26 17:39:17
中国海军某潜艇支队复杂特情锤炼“深海利刃”|全球观点

解放军报报导，舰桥上，天线升起、潜望镜旋转；指挥舱内，口令声、回令声此起彼伏；舱室过道里，艇员快...

来源：时间：2022-12-26 12:27:41
世界快资讯：能动履职　找准利益平衡点

能动履职找准利益平衡点内蒙古鄂尔多斯：代表建议与检察建议双向融合守护群众美好生活鄂尔多斯市检察院...

来源：时间：2022-12-26 07:06:49
利德曼董秘回复：公司现有业务主要涵盖体外诊断试剂、诊断仪器、生物化学原料等领域

利德曼(300289)12月25日在投资者关系平台上答复了投资者关心的问题。投资者：您好！疫情三年，做为体外...

来源：时间：2022-12-25 14:15:39
工行首席技术官吕仲涛：商业银行数字化转型首先要做好“三个转变”

（原标题：工行首席技术官吕仲涛：商业银行数字化转型首先要做好“三个转变”）中国网财经12月24日讯中...

来源：时间：2022-12-24 15:37:55
特变电工: 公司以集中竞价方式增持完成新疆众和股份有限公司股份的公告|热点

特变电工股份有限公司证券代码：600089 证券简称：特变电工公告编号：临...

来源：时间：2022-12-23 22:20:00
本周盘点（12.19-12.23）：杭州解百周跌3.20%，主力资金合计净流出258.58万元|资讯

截至2022年12月23日收盘，杭州解百（600814）报收于6 96元，较上周的7 19元下跌3 2%。本周，杭州解百...

来源：时间：2022-12-23 15:55:38
世界时讯：12月23日译名发布：瓦列里·格拉西莫夫

外文全称：ValeryGerasimov中文译名：瓦列里·格拉西莫夫背景介绍：俄联邦武装力量总参谋长兼国防部副部...

来源：时间：2022-12-23 10:05:53
当前通讯！冬至阳生春又来！专家提醒：提高机体对寒冷适应性和耐寒能力

央视网消息：12月22日5时48分，迎来我国二十四节气当中的冬至。在古代，人们把冬至当成新的一年来计算，...

来源：时间：2022-12-22 23:11:04
安信证券恐难蝉联A类投行：内控管理存较大缺陷多家在审项目“埋雷”

出品：新浪财经上市公司研究院　　近日，中证协公布了《2022年证券公司投行业务质量评价结果》，12家公...

来源：时间：2022-12-22 15:48:03
世界今日讯！记一次QQ找回经历

腾讯的风控策略让普通用户抓狂经历是这样的，昨天有事要登录下QQ号，因为很久没用过QQ的缘故，现在是在...

来源：时间：2022-12-22 10:29:28
天天热头条丨大禹节水(300021.SZ)：联合体预中标2.34亿元的获嘉县中原农谷一区高标准农田示范区建设项目

格隆汇12月21日丨大禹节水(300021)(300021 SZ)公布，公司全资子公司甘肃大禹节水集团水利水电工程有限...

来源：时间：2022-12-21 20:21:08
重磅，多地调整跨省政策！三亚酒店预订间夜量环比增长95%，海南概念股股飙了！携程研究院：元旦春节市场或成为旅游复苏最重要转折点

12月7日，A股三大指数涨跌不一，沪指下跌0 4%，深证成指上涨0 17%，创业板指上涨0 87%。医药板块、海...

来源：时间：2022-12-07 19:49:49
三夫户外：公司推出的银纤维系列产品具有抑菌功能

（原标题：三夫户外：公司推出的银纤维系列产品具有抑菌功能）同花顺（300033）金融研究中心12月6日讯，...

来源：时间：2022-12-06 17:56:38
奶茶逐步告别“30元时代” 低价茶饮将吸引更多消费者

今年以来，多家奶茶品牌的产品价格明显下调，并逐步告别被多次吐槽的30元时代。与此同时，茶饮行业也通...

来源：时间：2022-09-15 16:05:15
益方生物IPO曾遭暂缓审议

再有新股上市破发。科创板益方生物25日上市开盘即破发，盘中一度大跌近三成。截至收盘，该股下跌15 62%...

来源：时间：2022-08-25 14:26:48
深圳机场开通今年第5条国际货运航线为深圳企业外贸出口提供新支撑
B站与杰威尔音乐达成版权合作首发周杰伦新歌MV
兰考：抗击疫情显担当捐赠物资暖情怀
今天中午12时起郑州出市政策调整
最高5万元！驻马店公布最新购房补贴政策
5月20日，川汇区开展全员上门核酸检测！
濮阳发布41号通告：调整封控管控区域
我爱我家、果多美、一手店等15家企业防疫不力被通报
最高人民检察院依法对龚建华决定逮捕
私拉乱拉、箱体超高、密闭不严……郑州二七区将严查渣土车各类违法违规行为
5月20日起，郑州地铁2号线全线车站恢复正常运营服务
航空港消防网络直播普及安全常识，“蓝姐姐”进村庄讲述防火那些事
新发突发重大传染病检测国家工程研究中心落户河南
郑州公布“以收音机频道收费驾驶员”处理情况：吊销其资格证
因为有你城市有光
郑州市中招志愿填报各批次志愿如何填？指南来啦！附近五年高中录取分数线
120家企业提供8000+岗位郑州这场招聘会别错过
到餐厅吃饭只能扫码点餐？快来看这份《消费提示》
京广大通道空域结构调整完成河南段运行容量提升50%
最新全国疫情中高风险地区名单：全国现有高中风险地区14+61个（统计时间：5月19日21时）
北京疫情最新消息：5月19日北京新增50例本土确诊病例和12例无症状感染者
上海疫情最新消息：上海新增本土确诊病例88例和本土无症状感染者770例
5月19日河南新增本土确诊病例4例、本土无症状感染者24例
郑州限号|今天是2022年5月20日，郑州限行尾号是5和0
微信今天又能发520红包了，科普：分手后红包还要得回来吗？

X 关闭

电视剧

深圳机场开通今年第5条国际货运航线为深圳企业外贸出口提供新支撑 2022-08-08

河南16岁少年《浅谈诗书画》引关注 2022-05-20

X 关闭

电影

热播

B站与杰威尔音乐达成版权合作首发周杰伦新歌MV 2022-07-08

郑州市经开区明湖办事处：别样的温暖、别样的生日 2022-05-20