建模

1.建模前:数据质量分析:检查原始数据中是否有赃数据,若有则不能直接用来建模分析,不能为了满足算法而忽略数据的本身

分类器的种类:分类器:分类的程序(由于要考虑到数据的处理,因此要提前选好用什么数据结构类型来表示是置关重要的)

  1. 朴素贝叶斯分类器:利用klearn框架,并且假设预测变量独立。
  2. 线性分类器:逻辑回归使用logistics(signmoid函数估计概率来度量类别因变量与一个或多个独立变量之间的关系)
  3. 支持向量机(svm):(监督学习算法)可用来分类或回归,提取分离俩个类的最近超平面或线。
  4. Bagging Models(随机森林模型)是一种集成模型
  5. Boosting Models(机器学习集成元算法)是另外一种集成模型,勇于减少模型的偏差,把弱分类器(真实类别只有轻微相关的分类器)提升为强学习器。
  6. 浅层神经网络:用于发现被标注数据中存在的复杂模式和关系
  7. 深层神经网络(输入层-隐藏层-输出层):

(一).卷积神经网络(CNN):输入层上的卷积用来计算输出,在本地连接结果中,每一个输入单元都会连接到神经元上,每一层网络都应用不同的滤波器(fitter)并组合他们的结果。(文本分类,机器翻译,语言识别)

1.卷积运算2.池化层(对图像的某一个区域用一个值替代如最大值或平均值)3.网络结构:典型的神经网络结构由卷积层,池化层,全连接层构成

(二).LSTM:解决有循环神经网络产生梯度弥散的问题,导致当网络层很多时很难学习和调整前面网络层的参数,是一种新型的RNN。

(三).GRU:门控递归单元是另一种递归神经网络,在网络中添加GRU代替LSTM

(四)双向RNN,将GRU封装在双向RNN中

(五).循环卷积神经网络(RCNN)

(六)其他深层神经网络的变种

(七)循环神经网络:激活输出在俩个方向传播(从输入到输出,从输出到输入)产生循环充当“神经元”记忆状态。NLP领域大多数问题都是时间序列问题,通过反卷积(转置卷积)可以将卷积核效可视化出来。

(八)前馈神经网络:激活输出仅在一个方向上传播。

2.分类器的应用:推特情感分类,人脸识别,政治拉票,市场细分,个人健康助理,在亚马逊上推荐商品,评估用户的信用,其他(识别恐怖分子,来信分类,预测医疗费用,识别金融诈骗)

(特征的提取,标准化(三种:标准化(将特征值转换为均值为o的一组数,其中每个数表示偏离均值的程度)和正规化(将值的范围缩小到0-1之间)标准偏差或绝对偏差--->修正的标准分))

分类效果的评估:

  1. 十折交叉验证:将数据集分为10份,每次选9份作为训练集,依次迭代
  2. N折交叉验证(留一法):几乎用所有的数据进行训练,用一个数据进行测试。优点:确定性(结果总是相同(相同的测试样本下))缺点:计算时间长,分层问题(将不同类别的数据集均匀分布)使用范围:对小数据是合适的而大多数情况下会选择十折交叉验证
  3. 混淆矩阵(表格-->可视化(行表示测试用例实际所属的类别,列表示分类器的判断结果))
  4. Kappa指标:可以用来评价分类器的效果比随机分类(比例进行填充)要好多少 K=P(C)(分类器准确率)-P(R)(随机准确率)/1-p(r)

<0 : 比随机分类要差

0.01~~0.20 :稍好

0.21~~0.40一般

0.41~~0.60符合期望

0.61~~0.80本质上超越

0.81~~1.0几乎完美

 

3.模型中超参数调优:拟合模型

  1. 树的深层
  2. 叶子节点数
  3. 网络参数

降维:

LASSO通过参数缩减达到降维的目的

主成分分析(PCA):核心思想:进行投影之后尽量多的保留原始数据的主要信息,降低数据的冗余信息,以有利于后续的识别。通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维(从特征的协方差角度)

贡献度:若没有任何区分能力,则贡献度为0,信息含量小(删除重复的特征)

协方差(相关性判别):用于衡量俩个变量的总体误差。相关系数:一种特殊的协方差(他消除了俩个变量变化幅度的影响,而只是单纯反应俩个变量每单位变化时的相似程度)

小波分析:有一些变换的操作降低其他干扰可用看做是降维

线性判别LDA:核心思想:最大化类间差异,最小化类内差异,即保证同一个人的不同人脸图像在投影之后聚集在一起,不同人的不同人脸图像在投影之后被用一个大的间距分开,PCA和LDA最后归结于求解矩阵的特征值和特征向量,同时是模式识别的经典算法,将高维的模式样本投影到最佳鉴别矢量空间(更多的考虑标注既希望投影后不同类别之间数据点的距离更大,同一类别的数据点更紧凑)

猜你喜欢

转载自www.cnblogs.com/lgx-fighting/p/9373592.html