树类模型特征重要性计算方法

我们在使用GBDT、RF、Xgboost等树类模型建模时,都会有一个feature_importance的方法来返回特征重要性。下面总结了不同树类模型计算特征重要性的原理:Random Foreast 袋外数据错误率 基尼指数 GBDT 基尼指数 Xgboost gain:is the average gain of splits which use the featur...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

python的axis判断

axis = 0,对横轴(第0维)进行操作,运算的方向为纵向运算。即求列和、最大、最小等axis = 1,对纵轴(第1维)进程操作,运算的方向为横向运算。即求行和、最大、最小等import numpy as npimport numpy as npdata = np.array([[1,1,1,1], [2,2,2,2], ...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

Sql中的DDL和DML

对于数据分析人员,我们对数据库的操作无非就是建表、修改表结构、修改表内容(增删改)、查询表内容这些操作。下面总结了这些操作的区别 DDL 数据定义语言(Data Definition Language) 不需要commit 对表格的定义进行修改 create table 创建表 alter table 修改表 drop table 删除表 truncate table...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

python 循环创建变量

数据分析时,我们经常会有这样的需求:将数据集按某一个维度拆分成若干数据子集、创建多个变量。如果手动去实现,工作量较大。我们可以通过locals()配合循环语句来实现这一需求。我们以鸢尾花数据集为例,我们按照花的种类将数据集拆分成数据子集,分别放到不同的变量中去。实现代码如下:from sklearn.datasets import load_irisiris = load_iris()...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

Mysql的字符串转日期

 我们在对mysql的数据进行分析时,经常会遇到将业务意义为时间类型的变量定义为字符串的情况。如果我们需要按照时间维度进行分析的话,首先先要将字符串转换为时间类型。这里就需要使用Mysql的函数:STR_TO_DATE(str,format),其中,str为需要转换的字符串;format为str中时间的格式。注意:str中必须包含年月日,时分秒可以不包含。select STR_T...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

RNN系数矩阵维度之间的关系

我们知道RNN有三个系数矩阵需要训练,经常会被这些矩阵的维度搞晕。下面举一个简单的例子让大家记住各个矩阵维度之间的关系。 输入:输出:隐层(记忆):其中,,  ...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

CNN卷积池化后维度的变化

CNN的卷积操作后维度变化:输入维度:,分别代表输入样本的长宽高 卷积操作的超参数 卷积核个数: 卷积核大小: 滑动步长(Stride): 填充(Padding): 则输出的维度为,其中 由于CNN的参数共享机制,每个卷积核的参数个数为,共有个权重和个偏置 若想要卷积后得到的矩阵长宽与卷积前保持一致,则当时 卷积核为3时 padding 选择1...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

利用PermutationImportance挑选变量

我们在构建树类模型(XGBoost、LightGBM等)时,如果想要知道哪些变量比较重要的话。可以通过模型的feature_importances_方法来获取特征重要性。例如LightGBM的feature_importances_可以通过特征的分裂次数或利用该特征分裂后的增益来衡量。一般情况下,不同的衡量准则得到的特征重要性顺序会有差异。我一般是通过多种评价标准来交叉选择特征。博主认为,若一个特...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

利用Shap Value挑选变量

#Shap Valueclf = lgb.LGBMClassifier(objective='binary',random_state=1024).fit(X_train,y_train)explainer = shap.TreeExplainer(clf)shap_values = explainer.shap_values(X_train)shap.summary_plot(...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

变量相关性热力图

我们在建模的时候为了避免多重共线性一般都会分析变量之间的相关性。衡量变量相关性我们一般都是计算变量两两之间的皮尔逊相关系数( Pearson correlation coefficient)。为了能够更好的展现变量之间的相关性,下面为大家介绍如何利用热力图来表示变量之间的相关性。def corr_map(df): var_corr = df.corr() mask = np....
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

TF-IDF个人总结

TF-IDF算是nlp工程师必须掌握的入门级别的算法。作为兴趣爱好,之前曾阅读过几篇介绍该算法的博客,对其只是知道个大概。最近在看吴军老师的《数学之美》,里面对TF-IDF的介绍使得我对该算法有了更深刻的认识。现将个人对该算法的理解整理如下:TF-IDF是一种统计方法,用来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它①在文件中出现的次数成正比增加,但同时会...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

mysql安装个人总结

最近换了新工作,帮部门同事处理一些数据分析的工作。拿到的数据是excel格式的,评估后觉得导入到数据库中做处理会方便一下,所以计划在本地安装MySQL。发现版本已经更新到8.0.16,记得上次安装还是在读书的时候,版本也是5.X.X。由于很久没有安装MySQL,安装差不多用了一个晚上,最后还是在同学的帮助下完成了安装。现将安装过程中需要注意的一些点记录下来,以便日后再次安装使用。1.下载地址:...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

利用excel的lookup函数来数据分箱

我们在对数据进行统计时,经常会按照一定的标准将数据先分为若干类,然后统计每一类的数据的频率和占比。例如,我们需要统计不同分数段学生的人数。我们拿到的是每个学生的具体的分数,目的是统计不同分数段学生的人数。为了达到这个目的,我们先要将分数划分到指定的分数段,然后再统计每个分数段的人数。之前我是通过一连串的if语句将数据进行分箱,这样做的坏处有:1)代码较长,容易出错;2)风箱逻辑改变后不能复用。...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

类别特征的独热编码和二进制编码

我们在建模之前,一般需要对数据进行预处理。对于分类变量,一般模型不能直接作为变量输入,需要进行编码。分类变量常用编码方式如下:有序变量:序号编码无序变量:独热编码、二进制编码下面为大家介绍独热编码和二进制编码之间的区别。1)独热编码:独热编码会将变量的不同取值(N种取值)分别赋予一个只有1位为0的N维向量。例如星期,共有7个取值,独热编码会把它编码成一个7维稀疏向量。星期一表示为(...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

Excel的Sumif、Sumifs求和结果错误

最近在利用excel的sumif函数求和时,发现结果大于真是结果。分析发现原因:sumifs的判断条件为数值型,但长度大于15位,excel会将长度大于15位的数字后面默认为0。例如下面的例子,若用账号1进行聚合求和,由于账号长度为16位,大于excel的数值最大位数15位。excel会将9919000000041035和9919000000041039都默认为9919000000041030...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

excel利用公式取最后一行单元格内容

我们在数据处理中经常会涉及到去数据的前几行、后几行这样的操作。在excel中,取前几个单元格,我们可以直接写"=A1"这样的函数去取数。但是取最后一行的话,则不能写成"=Ax"这样类型的函数,因为若表格的行数变化了的话,会导致我们取到的就不是最后一行的数据了。大家可以通过函数"=INDIRECT("A"&COUNTA(A:A))"来取得最后一行的数据。结果如下:...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

货币供应量——M0、M1、M2

货币
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

市盈率和市净率

市盈率市净率
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

Excel反向匹配

Excel的vlookup应该是我们日常办公室使用频率最高的函数之一了。通过vlookup我们可以快速地进行核对数据,多个表格之间快速导入数据等函数功能。但vlookup函数有一个缺点,就是要求匹配列必须在查询列之后。如果匹配列在查询列之前,在使用vlookup之前我们需要将查询列移到匹配列之后。下面为大家介绍一种不需要变动原表结构就可以实现反向查询的方法:index+match函数有...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0

一分钟巧记精准率、召回率

学习过机器学习算法的同学一定不会对精准率、召回率陌生。精准率(precision)和召回率(recall)是对二分类模型效果评价的指标。下图为精准率和召回率的计算公式:由于这里面涉及到TP、FN、FP、TN这四个指标...
分类: 其他 发布时间: 10-29 12:27 阅读次数: 0