对处理文本数据的认识

处理文本常用的方法是词袋法。

词袋法:
不考虑词语出现的顺序,每个出现过的词汇单独作为一列特征
这些不重复的特征词汇集合为词表
每一个文本都可以在很长的词表上统计出一个很多列的特征向量
如果每个文本都出现的词汇,一般被标记为 停用词 不计入特征向量

以上就是对处理文本数据的认识。

猜你喜欢

转载自blog.csdn.net/CSDN_LYY/article/details/87914389