sklearn文本向量化工具

其他 2019-09-06 21:34:51 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/Yellow_python/article/details/97677183

文章目录

词频统计向量化

基本用法
中文分词器

TF-IDF向量化
压缩稀疏矩阵

词频统计向量化

基本用法

from sklearn.feature_extraction.text import CountVectorizer
corpus = ['air air ball call', 'air ball ball', 'air air air']
vectorizer = CountVectorizer()
vectorizer.fit(corpus)
X = vectorizer.transform(corpus)
print(X)
print(type(X[0]))

中文分词器

默认分词器是正则表达式分词，参数是tokenizer和token_pattern
stop_words过滤不需要的词
max_features限制最大词汇量，过滤低频词

import jieba
from sklearn.feature_extraction.text import CountVectorizer
# 语料
texts = ['小米、小米、苹果、华为', '小米和苹果、1+和苹果', '华为和小米']
# 分词器
jieba.add_word('1+', 2, 'nz')
tokenizer = lambda s: jieba.cut(s, HMM=False)
# 停词
stop_words = ['、', '和']
# 向量化
vectorizer = CountVectorizer(tokenizer=tokenizer, stop_words=stop_words, max_features=3)
X = vectorizer.fit_transform(texts)
print(X)
print(list(tokenizer('小米华为苹果1+')))
print(vectorizer.transform(['小米、华为、苹果和1+']))

TF-IDF向量化

TfidfVectorizer继承CountVectorizer

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
# 语料
texts = ['小米苹果华为小米', '苹果小米苹果', '小米小米']
# 向量化
vectorizer = TfidfVectorizer(tokenizer=jieba.cut)
X = vectorizer.fit_transform(texts)
print(X)
print(X.toarray())

压缩稀疏矩阵

Compressed Sparse Row Matrix
Compressed Sparse Column Matrix

from numpy import array
from scipy.sparse import csr_matrix, csc_matrix
a = array([[0, 0, -2, 0],
           [-1, 0, 3, 0],
           [0, 0, 0, -9]])
csr = csr_matrix(a)
csc = csc_matrix(a)
print(a, csr, type(csr), csc, type(csc), csc.toarray(), sep='\n\n')

猜你喜欢

转载自blog.csdn.net/Yellow_python/article/details/97677183

sklearn文本向量化工具

文本向量化

Mahout文本向量化

文本向量化---从向量到向量（tfidf）

文本向量化------从文本到向量

Mahout之文本向量化

7. 文本向量化

文本向量化（理论篇）

文本向量化笔记（一）

文本向量化笔记（三）

鬼吹灯文本挖掘1：jieba分词和CountVectorizer向量化鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

文本特征提取和向量化

NLP | 文本特征向量化方法

【458】keras 文本向量化 Vectorization

模型量化(4): Pytorch 量化工具包介绍

1. 文本相似度计算-文本向量化

文本相似度算法：文本向量化+距离公式

文本挖掘预处理之向量化与Hash Trick

Python自然语言处理实战（7）：文本向量化

文本型数据的向量化:TF-IDF

自然语言处理--中文文本向量化counterVectorizer()

Python机器学习(4)——文本特征抽取与向量化

自然语言语言处理（二）：文本的向量化

文本向量化 - 词袋模型， N-gram 特征

基于TF-IDF文本向量化的垃圾短信识别

pandas-向量化文本-str.lower()

向量化

TensorRT量化工具pytorch_quantization代码解析(二）

TensorRT量化工具pytorch_quantization代码解析(一）

神经网络量化工具AIMET学习笔记

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)