建模 - 代码天地

1.建模前：数据质量分析：检查原始数据中是否有赃数据，若有则不能直接用来建模分析，不能为了满足算法而忽略数据的本身

分类器的种类：分类器：分类的程序（由于要考虑到数据的处理，因此要提前选好用什么数据结构类型来表示是置关重要的）

朴素贝叶斯分类器：利用klearn框架，并且假设预测变量独立。
线性分类器：逻辑回归使用logistics（signmoid函数估计概率来度量类别因变量与一个或多个独立变量之间的关系）
支持向量机（svm）：（监督学习算法）可用来分类或回归，提取分离俩个类的最近超平面或线。
Bagging Models（随机森林模型）是一种集成模型
Boosting Models（机器学习集成元算法）是另外一种集成模型，勇于减少模型的偏差，把弱分类器（真实类别只有轻微相关的分类器）提升为强学习器。
浅层神经网络：用于发现被标注数据中存在的复杂模式和关系
深层神经网络（输入层-隐藏层-输出层）：

（一）.卷积神经网络（CNN）：输入层上的卷积用来计算输出，在本地连接结果中，每一个输入单元都会连接到神经元上，每一层网络都应用不同的滤波器（fitter）并组合他们的结果。（文本分类，机器翻译，语言识别）

1.卷积运算2.池化层（对图像的某一个区域用一个值替代如最大值或平均值）3.网络结构：典型的神经网络结构由卷积层，池化层，全连接层构成

（二）.LSTM：解决有循环神经网络产生梯度弥散的问题，导致当网络层很多时很难学习和调整前面网络层的参数，是一种新型的RNN。

（三）.GRU：门控递归单元是另一种递归神经网络，在网络中添加GRU代替LSTM

（四）双向RNN,将GRU封装在双向RNN中

（五）.循环卷积神经网络（RCNN）

（六）其他深层神经网络的变种

（七）循环神经网络：激活输出在俩个方向传播（从输入到输出，从输出到输入）产生循环充当“神经元”记忆状态。NLP领域大多数问题都是时间序列问题，通过反卷积（转置卷积）可以将卷积核效可视化出来。

（八）前馈神经网络：激活输出仅在一个方向上传播。

2.分类器的应用：推特情感分类，人脸识别，政治拉票，市场细分，个人健康助理，在亚马逊上推荐商品，评估用户的信用，其他（识别恐怖分子，来信分类，预测医疗费用，识别金融诈骗）

（特征的提取，标准化（三种：标准化（将特征值转换为均值为o的一组数，其中每个数表示偏离均值的程度）和正规化（将值的范围缩小到0-1之间）标准偏差或绝对偏差--->修正的标准分））

分类效果的评估：

十折交叉验证：将数据集分为10份，每次选9份作为训练集，依次迭代
N折交叉验证（留一法）：几乎用所有的数据进行训练，用一个数据进行测试。优点：确定性（结果总是相同（相同的测试样本下））缺点：计算时间长，分层问题（将不同类别的数据集均匀分布）使用范围：对小数据是合适的而大多数情况下会选择十折交叉验证
混淆矩阵（表格-->可视化（行表示测试用例实际所属的类别，列表示分类器的判断结果））
Kappa指标：可以用来评价分类器的效果比随机分类（比例进行填充）要好多少 K=P(C)(分类器准确率)-P(R)（随机准确率）/1-p(r)

<0 : 比随机分类要差

0.01~~0.20 :稍好

0.21~~0.40一般

0.41~~0.60符合期望

0.61~~0.80本质上超越

0.81~~1.0几乎完美

3.模型中超参数调优：拟合模型

树的深层
叶子节点数
网络参数

降维：

LASSO通过参数缩减达到降维的目的

主成分分析（PCA）：核心思想：进行投影之后尽量多的保留原始数据的主要信息，降低数据的冗余信息，以有利于后续的识别。通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维（从特征的协方差角度）

贡献度：若没有任何区分能力，则贡献度为0，信息含量小（删除重复的特征）

协方差（相关性判别）：用于衡量俩个变量的总体误差。相关系数：一种特殊的协方差（他消除了俩个变量变化幅度的影响，而只是单纯反应俩个变量每单位变化时的相似程度）

小波分析：有一些变换的操作降低其他干扰可用看做是降维

线性判别LDA：核心思想：最大化类间差异，最小化类内差异，即保证同一个人的不同人脸图像在投影之后聚集在一起，不同人的不同人脸图像在投影之后被用一个大的间距分开，PCA和LDA最后归结于求解矩阵的特征值和特征向量，同时是模式识别的经典算法，将高维的模式样本投影到最佳鉴别矢量空间（更多的考虑标注既希望投影后不同类别之间数据点的距离更大，同一类别的数据点更紧凑）

建模

猜你喜欢