Python 机器学习及实践 Codeing 模型实用技巧 (特征提升模型正则化模型检测超参数搜索)

之前的数据都是经过了规范化处理，而且模型也大多数采用了默认的初始化配置

但是在世纪研究和工作种接触到的数据都是这样规整的吗？难道默认配置就最佳的吗？

3.1模型实用技巧

一旦我们确定使用某个模型本书所提供的程序库就可以帮助我们从标准的训练数据种，依靠默认的配置学习到模型所需要的参数；

接下来，我们便可以利用这组得来的参数指导模型在测试数据上进行预测，进而对模型的表现进行评价

但是这套方案不能保证：

①所有用于训练的数据特征都是最好的

②学习得到的参数一定是最优的

③默认配置下的模型总是最佳的

Together 我们可以从多个角度对在前面使用过的模型进行性能提升（预处理数据控制参数优化模型配置）

特征提升（特征抽取和特征筛选）

特征抽取

所谓特征抽取就是逐条将原始数据转化维特征向量的形式这个过程同时涉及对数据特征的量化表示

原始数据：

　　　　　　1数字化的信号数据（声纹，图像）

　　　　　　2还有大量符号化的文本

①我们无法直接将符号化的文字本身用于计算任务而是需要通过某些处理手段，预先将文本量化为特征向量

有些用符号表示的数据特征已经相对结构化，并且以字典这种数据结构进行存储。

这时我们使用DictVectorizer 对特征进行抽取和向量化

CODE

DiceVectorizer 对特征的处理方式（字典）：

1类别行使用0/1二值方式

2数字型维持原始数值即可

②另外一些文本数据更为原始知识一系列的字符串我们采用词袋法对特征进行抽取和向量化

词袋法的两种计算方式

CountVectorizer

TfidVectorizer

训练文本的条目越多，TfidVectorizer这种特征量化方式就更有优势

利用TfidVectorizer压制常用词汇对分类决策的干扰，往往可以起到提升模型性能的作用

停用词（stop words）以黑名单方式过滤掉

CODES

特征筛选

良好的

Python 机器学习及实践 Codeing 模型实用技巧 (特征提升 模型正则化 模型检测 超参数搜索)