文本表示与文本特征提取的区别

文本表示与文本特征提取的区别

文本表示的作用就是将文本的非结构化的信息转化为结构化的信息,例如独热编码:

猫:[1,0,0,0]
狗:[0,1,0,0]
牛:[0,0,1,0]
羊:[0,0,0,1]

词袋模型:

句子1:我/有/一个/苹果
句子2:我/明天/去/一个/地方
句子3:你/到/一个/地方
句子4:我/有/我/最爱的/你

句子 1 特征: ( 1 , 1 , 1 , 1 , 0 , 0 , 0 , 0 , 0 , 0 )
句子 2 特征: ( 1 , 0 , 1 , 0 , 1 , 1 , 1 , 0 , 0 , 0 )
句子 3 特征: ( 0 , 0 , 1 , 0 , 0 , 0 , 1 , 1 , 1 , 0 )
句子 4 特征: ( 2 , 1 , 0 , 0 , 0 , 0 , 0 , 1 , 0 , 1 )

而文本特征提取,在文本信息中选出最能表示文本含义的部分。例如TF-IDF的权值计算,很明显权值高的词具有更高的意义。

很多时候二者合并进行了,比如TF-IDF其实先用一个词袋模型进行了文本表示,然后直接进行权值计算即特征提取。

猜你喜欢

转载自blog.csdn.net/a1097304791/article/details/122196812