用Word2Vec来处理NLP问题 - 代码天地

用Word2Vec来处理NLP问题

其他 2018-09-12 15:34:02 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/shaoyou223/article/details/79639861

以下是主要代码，用word2vec来对词汇进行处理，只给了主要代码，其他读入和处理的代码在我博客里nlp处理的基础版和进阶版中都可以很容易查到。点击打开链接

#训练NLP模型

#先用最简单的Woed2Vec

from gensim.models.word.2Vec import Word2Vec

model = Word2Vec(corpus,size=128,windows=5,min_counts = 5,workers = 4)

#用NLP来表示

#先取全部的词汇

vocab = model.vocab

#得到任意text的vector

def get_vector(word_list):

扫描二维码关注公众号，回复： 3150733 查看本文章

res = np.zeros([128])

count = 0

if word in wordlist:

if word in vocab:

res += model[word]

count +=1

return res/count

wordlist_train = X_train

wordlist_test = X_test

X_train = [get_vector(x) for x in X_train]

X_test = [get_vector(x) for x in X_test]

#建立ML模型

from sklearn.svm import SVR

from sklearn.model_selection import cross_val.score

params = [0.1,0.5,1,3,5,7,10,12,16,20,25,30,35,40]

test_scores=[]

for param in params:

clf = SVR(gamma = param)

test_score = cross_val_score(clf,X_train,y_train,cv = 3,scoring = 'roc_auc')

test_scores.append(np.mean(test_score))

import matplotlib.pyplot as plt

plt.plot(params,test_scores)

plt.title('param vs sv AUC Score')

猜你喜欢

转载自blog.csdn.net/shaoyou223/article/details/79639861

用Word2Vec来处理NLP问题

[NLP] word2vec

NLP之——Word2Vec详解

【NLP】Word2vec简介，入门

NLP之word2vec

NLP（一）Word2Vec原理

NLP笔记(1)——word2vec

NLP之Word2Vec详解

NLP入门（三）word2vec

[NLP] 秒懂词向量Word2vec的本质+word2vec资源总结

NLP到Word2Vec 03 | Word2vec应用案例

NLP到Word2Vec 02 | Word2Vec理论基础

利用Tensorflow进行自然语言处理（NLP）系列之一Word2Vec

利用Tensorflow进行自然语言处理（NLP）系列之二高级Word2Vec

自然语言处理（NLP）：04 word2vec 入门介绍

自然语言处理（NLP）：04 word2vec 入门介绍

自然语言处理（NLP）：06 word2vec训练中文模型-文本分类

【自然语言处理（NLP）】基于Skip-gram实现Word2Vec

【自然语言处理（NLP）】基于Word2Vec的语言模型实践

NLP自然语言处理之Word2Vec(一）词向量

NLP系列2：Word2Vec理论及实战

word2vec

NLP - word2vec理论基础

不懂word2vec，还敢说自己是做NLP？

[NLP] 秒懂词向量Word2vec的本质

NLP 相关算法 Word2Vec embedding

【NLP】【五】gensim之Word2Vec

NLP：Gensim库之word2vec

NlP之word2vec的发展历程

NLP | Word2Vec之Huffman树与Huffman编码

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)