达观杯文本处理（三）--调优与融合

【Task4 模型优化】：（2天）
1）进一步通过网格搜索法对3个模型进行调优（用5000条数据，调参时采用五折交叉验证的方式），并进行模型评估，展示代码的运行结果。(可以尝试使用其他模型)
2）模型融合，模型融合方式任意，并结合之前的任务给出你的最优结果。
例如Stacking融合，用你目前评分最高的模型作为基准模型，和其他模型进行stacking融合，得到最终模型及评分结果。
结果展示如下表：

K折交叉验证&网格搜索法
K折交叉验证（k-fold cross validation），将初始采样（样本集X，Y）分割成K份，一份被保留作为验证模型的数据（test set），其他K-1份用来训练（train set）。交叉验证重复K次，每份验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。

https://blog.csdn.net/tianguiyuyu/article/details/80697223
https://blog.csdn.net/zhaohaibo_/article/details/84619396

Grid Search：一种调参手段；穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。（为什么叫网格搜索？以有两个参数的模型为例，参数a有3种可能，参数b有4种可能，把所有可能性列出来，可以表示成一个3*4的表格，其中每个cell就是一个网格，循环过程就像是在每个网格里遍历、搜索，所以叫grid search）

https://www.cnblogs.com/ysugyl/p/8711205.html
https://www.cnblogs.com/nwpuxuezha/p/6618205.html

GridSearchCV & cross_val_score 思考
GridSearchCV（网格搜索）用简答的话来说就是你手动的给出一个模型中你想要改动的所用的参数，程序自动的帮你使用穷举法来将所用的参数都运行一遍。
cross_val_score 一般用于获取每折的交叉验证的得分，然后根据这个得分为模型选择合适的超参数，通常需要编写循环手动完成交叉验证过程；
GridSearchCV 除了自行完成叉验证外，还返回了最优的超参数及对应的最优模型

https://blog.csdn.net/weixin_40363627/article/details/85015683

code_模型调参
参考:https://blog.csdn.net/weixin_40363627/article/details/85015683

---------------------
参考链接及学习资料：
【1】https://blog.csdn.net/sinat_23133783/article/details/89299750

【2】Datawhale-达观杯nlp复盘 https://blog.csdn.net/u012914436/article/details/89132931#datawhale_day06

达观杯文本处理（三）--调优与融合

猜你喜欢