sklearn逻辑回归参数中涉及样本不平衡的部分 - 代码天地

sklearn逻辑回归参数中涉及样本不平衡的部分

其他 2020-02-21 16:48:47 阅读次数: 0

一、class_weight :
分类模型中各种类型的权重，可以不输入，即不考虑权重，或者说所有类型的权重一样。

手动输入各个类型的权重：
比如对于0,1的二元模型，定义class_weight={0:0.8, 1:0.2}，即表示类型0的权重为80%，而类型1的权重为20%.
选择balanced：
类库根据训练样本量计算权重，表示样本数目越多，权重越小，样本数越少，权重越大。
计算方法如下：n_samples / (n_classes * np.bincount(y))
n_samples为样本数，n_classes为类别数量，np.bincount(y)会输出每个类的样本数，例如y=[1,0,0,0,0],则np.bincount(y)=[4,1]

什么场景下用class_weight?
(1) 误分类代价高：
如信用卡欺诈、乳腺癌检测等（将欺诈和阳性设为label 1），可适当提高label 1的权重
(2) 样本高度不平衡：
比如信用卡欺诈场景中，正常交易有280000次，欺诈有28次。如果不考虑权重，则将所有测试集都预测为正常交易，这样预测准确率理论上将大于99.99%，但是却没有任何意义。这时，可以选择balanced，让类库自动提高欺诈交易样本的权重

样本高度不平衡的情况还可以考虑参数sample_weight

二、sample_weight (fit函数的参数)

当样本是高度失衡的，导致样本不是总体样本的无偏估计，从而可能导致模型预测能力下降。这种情况，可以通过调节样本权重来尝试解决这个问题。

调节样本权重的方法有两种：
（1）在class_weight使用balanced。
（2）调用fit函数时，通过sample_weight来调节每个样本权重。

在scikit-learn做逻辑回归时，如果上面两种方法都用到了，那么样本的真正权重是class_weight*sample_weight.

Jennie_J

发布了41 篇原创文章 · 获赞 14 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43685844/article/details/88831907

sklearn逻辑回归参数中涉及样本不平衡的部分

在分类中处理样本不平衡问题

机器学习中样本不平衡处理办法

机器学习中样本不平衡的处理方法

样本不平衡问题

样本不平衡处理

样本不平衡的处理

正负样本不平衡问题

样本不平衡问题分析与部分解决办法

正负样本不平衡处理方法总结

解决分类样本不平衡问题

正负样本不平衡处理方法总结【转】

样本不平衡会对SVM的影响

机器学习之样本不平衡

机器学习样本不平衡处理

处理样本不平衡的LOSS—Focal Loss

处理样本不平衡LOSS—Focal Loss

类别样本不平衡问题

如何处理样本不平衡问题

【面试必备】之《样本不平衡》

样本不平衡的解决方案（很详细）

样本不平衡问题及解决方法

如何解决样本不平衡问题？

机器学习中样本不平衡的解决方案

机器学习中样本不平衡，怎么办？

如何处理深度学习中的样本不平衡问题？

不平衡样本的处理

样本不平衡处理包imbalanced-learn调包报错ImportError: cannot import name ‘parse_version‘ from ‘sklearn.utils.fixe

转载：样本不平衡数据集防坑骗指南

［每日问答］正负样本不平衡应该怎么处理？

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)