对文本抽取词袋模型特征 - 代码天地

对文本抽取词袋模型特征

其他 2018-12-14 14:08:03 阅读次数: 0

from sklearn.feature_extraction.text import CountVectorizer

vec = CountVectorizer(

analyzer='word', # tokenise by character ngrams

max_features=4000, # keep the most common 4000 ngrams，表示抽取最常见的4000个单词

#在x_train上提取词袋模型特征

vec.fit(x_train)

classifier = MultinomialNB()

# vec.transform(x_train)转化训练集样本，转变之后矩阵维度是[n_samples, 4000]

classifier.fit(vec.transform(x_train), y_train)

#加入抽取2-gram和3-gram的统计特征

vec = CountVectorizer(

analyzer='word', # tokenise by character ngrams

ngram_range=(1,4), # use ngrams of size 1 and 2

max_features=20000,) # keep the most common 1000 ngrams

更可靠的验证效果的方式是交叉验证，但是交叉验证最好保证每一份里面的样本类别也是相对均衡的，我们这里使用StratifiedKFold

from sklearn.cross_validation import StratifiedKFold

#x是训练数据，y是标签，train_index : test_index = 4:1

stratifiedk_fold = StratifiedKFold(y, n_folds=n_folds, shuffle=shuffle)

for train_index, test_index in stratifiedk_fold:

X_train, X_test = x[train_index], x[test_index]

y_train = y[train_index]

猜你喜欢

转载自www.cnblogs.com/yongfuxue/p/10118993.html

对文本抽取词袋模型特征

CountVectorizer与TfidfVectorizer 对文本特征的特征抽取

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

自然语言处理（NLP）：02 基于词袋模型（BOW）特征抽取&n-gram&扩展特征维度数 + 贝叶斯算法文本分类

文本向量化 - 词袋模型， N-gram 特征

自然语言处理（NLP）： 01 基于词袋模型（BOW）特征抽取 + 贝叶斯算法新闻文本分类

聚类分析算法对文本分类之分词和构建词袋模型

文本特征抽取

NLP文本特征抽取器

NLP之文本表示-词袋模型

机器学习---文本特征提取之词袋模型（Machine Learning Text Feature Extraction Bag of Words）

文本特征抽取TfidfVectorizer(特征工程之特征提取)

【文本挖掘】——文本信息化——词袋模型

使用Python进行文本特征抽取

机器学习---文本特征抽取---TFIDF

字典特征提取和文本特征抽取

文本离散表示（一）：词袋模型（bag of words）

泛统计理论初探——文本挖掘中的词袋模型

机器学习-文本数据抽取(词袋法和IF-IDF)

03_数据的特征抽取，sklearn特征抽取API，字典特征抽取DictVectorizer,文本特征抽取CountVectorizer，TF-IDF(TfidfVectorizer),详细案例

文本信息常用的事件抽取模型

特征抽取

机器学习sklearn —数据类型和文本特征抽取

Python机器学习(4)——文本特征抽取与向量化

机器学习-文本特征值抽取，中文分词

4.2 文本特征抽取的两种方式CountVectorizer与TfidfVectorizer

机器学习01:入门案例-文本特征抽取

文本特征提取函数: 词袋法与TF-IDF(代码理解)

基于TFIDF实现文本分类，并比较词集模型与词袋模型的分类效果

使用词袋模型（BoW）测试提取图像的特征点和聚类中心

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)