文本分类任务基本框架
- 文本
- 特征工程:决定模型的上限
- 分类器:逼近模型的上限
- 类别
文本特征提取的主要方法分类
1. 经典文本特征——前人研究成熟理论
1). TF 词频
2). TFIDF 词频逆文档
3). Doc2vec 深度学习 词向量按位相加形成一个向量,或者拼接形成长向量
4). Word2vec 深度学习
2. 手工构造新特征——新创可能性的新特征
1). 寻找可能影响分类效果的新特征
例:文章的长度可能会影响分类,所以将其作为一个特征
2). 人工制造可能影响分类的新特征
例:
3. 用神经网络提取
神经网络作为特征提取器,用神经网络某一层输出作为特征
注:10W规模数据:传统机器学习方法更好
特征工程(选择)
1. 为什么要特征选择
- 减弱维度灾难,计算量降低
- 降低学习任务难度
2. 特征选择的方法
包裹式: 一组特征大的集合,挑选子集进行训练和验证,选择效果好的子集。
嵌入式:用分类器进行特征选择,逻辑回归分类器学出来的权重 ,w值大表示特征比较重要,如果 为0或比较小,特征即可剔除。
过滤式:在分类器之前最特征进行过滤,例如求取特征的方差信息为0或很小,说明特征所起作用不大,可将其剔除, 类似,可过滤很多特征。
特征降维
- 目的:减少计算量,降低学习难度
- 作用:将一组特征经过数学变换形成新的特征,高维向量经过数学变换映射到低维 低维向量抽象出来的信息更有助于学习分类
降维方式分类
- 有监督降维:使用了样本类别信息
代表方法:LDA线性判别分析 - 无监督降维:不使用了样本类别信息
代表方法:
- LSA浅层语义分析
- Ida 对词频矩阵分解
- NMF 非负矩阵分解
常用分类器
1. sklearn包
- 逻辑回归
- SVM
- 朴素贝叶斯
- 随机森林
- bagging
2. Lightgbm
3. xgboost
- 注:Lightgbm和xgboost是JBT算法实现的工具包,比赛大杀器,效果出众
4. 神经网络
- 具有强大拟合函数的能力,特征输入到神经网络里进行拟合,训练出优秀的函数作为最终的分类。
优化模型分类结果方法:多个单模型融合
- 关键:训练多个好而不同的单模型
- 补充:构造多个不同的训练集
- 融合方法:
- 投票法:少数服从多数或加权投票法
- 学习法:将全部预测结果放到新的分类器学习,产生新的结果。