决策树算法

特征工程-特征提取

特征提取就是将任意数据转换为可用于机器学习的数字特征。计算机无法直接识别字符串，将字符串转换为机器可以读懂的数字特征，才能让计算机理解该字符串(特征)表达的意义。
主要分为：字典特征提取(特征离散化)、文本特征提取(文章中特征词汇出现的频次)。

字典特征提取

对类别数据进行转换。
计算机不能够识别直接传入的城市、温度数据，需要转换为0，1的编码才能够被计算机所识别。
在这里插入图片描述
用代码实现就为：

字典特征提取API

sklearn.feature_extraction.DictVectorizer(sparse=Ture,...)
DictVectorizer.fit_transform(X),X:字典或者包含字典的迭代器返回值，返回sparse矩阵
DictVectorizer.get_feature_names()返回类别名称

在这里插入图片描述
当数据量比较大的时候，使用sparse矩阵能更好的显示特征数据，更加的直观，没有显示0数据，更加节省内存。

文本特征提取

对文本数据进行特征值化，一篇文章中每个词语出现的频次。

文本特征提取API

sklearn.feature_extraction.text.CountVectorizer(stop_words=[])
返回词频矩阵。
CountVectorizer.fit_transform(X)
X:文本或者包含文本字符串的可迭代对象
返回值：返回sparse矩阵
CountVectorizer.get_feature_names()返回值：单词列表

英文文本特征提取实现

需求：体现以下段落的词汇出现的频次

[“Life is a never - ending road”,“I walk,walk,keep walking.”]

注意：
1.文本特征提取没有sparse参数，只能以默认的sparse矩阵接收
2.单个的字母，如I,a都不会统计
3.通过stop_words指定停用词

在这里插入图片描述

中文文本特征提取实现

需求：体现以下段落的词汇出现的频次

data = [‘这一次相遇’,‘美得彻骨，美得震颤，美得孤绝，美得惊艳。’]

在这里插入图片描述
需求：体现以下文本的词汇出现的频次

把文章中的词汇统一提取出来，去掉重复值后放到一个列表里，矩阵里显示的是每个词汇在每一行中出现的次数。根据词汇出现的多少可以把文章归纳为跟词汇相关的文章。

扫描二维码关注公众号，回复： 16261122 查看本文章

Tf-idf文本特征提取

TF-IDF的主要思想是：如果某个词语或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或短语具有很好的类别区分能力，适合用来分类。
TF-IDF的作用：用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

Tf-idf文本特征提取公式： $tfidf_{i,j}=tf_{i,j}*idf_i$
词频(term frequency ,tf)：指的是某一个给定的词语在该文件中出现的频率
逆向文档频率(inverse document frequency ,idf)：是一个词语普遍重要性的度量。某一个特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到。

比如一篇文章由1000个字，而房地产出现了500次，房地产在该文章中出现的频率tf为：500/1000=0.5；房地产在1000份文件中出现过，文件的总数量为1000000，idf： $l o g 1000000/1000 = 3$ ;tf-idf就为0.5*3=1.5。
不单单看某个词汇在某一篇文章中出现的次数(频率)，还需要看它在整个文件集中出现的次数。

Tf-idf文本特征提取api

sklearn.feature_extraction.text.TfidfVectorizer

在这里插入图片描述

得到的是计算之后的tfidf的结果，没有文件集就是以行来进行分割的，以列表作为文件集，把每一行作为一个文件来进行处理。通过判断tfidf的大小来将某个词汇作为分割的重要词汇。