Doc2vc算法代码 - 代码天地

Doc2vc算法代码

其他 2018-08-11 05:16:59 阅读次数: 0

with open('IMDB_data/unsup.txtr') as infile:
     unsup_reviews = infile.readlines()

#用1表示积极感情，0表示消极感情
 y = np.concatenate((np.ones(len(pos_reviews)),np.zeros(len(neg_reviews))))

 x_train,x_test,y_train,y_test=
 train_test_split(np.concatenate((pos_reviews,neg_reviews)),y, test_size=0.2)

#将于文本无关的符号信息删除（文本处理）

def cleanText(corpus):
   punctuation=....,?!:;(){>[]....
   corpus=[z.lower().replace('\n)forzincorpus]
   corpus=[z.replace]1<br/>','')forzincorpus]

#将标点当做单个词处理
for c in punctuation:
    corpus = [z.replace(c,%s'%c)forzincorpus]

   corpus=[z.split（） for z in corpus]
return corpus

x_train = cleanText(x_train)
x_test = cleanText(x_test)

unsup_reviews = cleanText(unsup_reviews)
 
#Gensim'sDoc2Vecimplementationrequireseachdocument/paragraphtohavea
labelassociatedwithit.
#WedothisbyusingtheLabeledSentencemethod.Theformatwillbe
"TRAIN_i"or~TEST_i"where"i"is
#adummyindexofthereview.
def labelizeReviews (reviews,label_type):
   labelized=[]

for i,v inenumerate(reviews):
label='%s_%s'%(label_type,i)
labelized.append(LabeledSentence(v,[label]))
return labelized

x_train = labelizeReviews(x_train, 'TRAIN')
x_test = labelizeReviews(x_test, 'TEST')

unsup_reviews = labelizeReviews(unsup_reviews,'UNSUP')

猜你喜欢

转载自blog.csdn.net/u014565726/article/details/80466557

Doc2vc算法代码

Api2Doc

向量化算法doc2vec/str2vec整理

KMP算法(2)-代码

用gensim doc2vec计算文本相似度，Python可以跑通的代码

机器学习算法Python实现：doc2vec 求句子相似度

VC代码小摘抄

VC++代码分析

Doc2Vec实践

深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析

深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析

VC++学习——2

VC学习:记录2

工具 | Chat2Doc：与PDF和Doc对话！

【181102】VC++图像分水岭分割算法控件及示例源代码

【181130】VC++ 图形图像裁剪与填充算法源代码

【181204】VC++ Canny算子提取边缘算法示例源代码

【181203】VC++ 经典的人脸识别算法实例源代码

doc

Doc2Swf+Pdf2Swf

MUSICA（多尺度图像对比度增强）算法的VC实现-2[r]

maven下载源代码以及doc

如何往doc里粘贴patch代码

JACOB DOC转TXT高效代码

VC SDK 全屏截图代码

用VC写Assembly代码

VC图片裁剪源代码

Elasticsearch2.X Doc values介绍

linux下的DB2命令.doc

doc2vec原理及实践

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)