中文文本数据结构化处理实例 - 代码天地

中文文本数据结构化处理实例

其他 2018-06-04 06:35:30 阅读次数: 0

import jieba
import gensim
from gensim import corpora
from gensim.matutils import corpus2dense

f = open("背影.txt", "r+")   #选取文档为中文的《背影》，将文档放在当前目录下
text1 = f.readlines()        #读取文件，按行读取，存入列表
read = text1
#text1 = f.read()            #直接全部读取，是一个字符串
#text1.splitlines()          #按照 /n 切分
f.close()
f = open("stop_words.txt", "r+", encoding="GBK") #读取停用词，网上随便下载即可，注意编码方式
text2 = f.read()
stop_word = text2.splitlines()
text = []
for i in range(len(read)):                       #逐行读取   
    seg_useful = []
    segs = jieba.cut(read[i])                    #结巴分词，注意结巴分词只能针对字符串，无法处理列表
    for seg in segs:
        if seg not in stop_word:                 #删除停用词
            seg_useful.append(seg)
    text.append(seg_useful)                      #收集有用的词

dictionary = corpora.Dictionary(text)            #建立字典
word_count = [dictionary.doc2bow(text[i]) for i in range(len(text))]    #建立文档-词项矩阵

dtm_matrix = corpus2dense(word_count, len(dictionary))   
dtm_matrix.T

from gensim import models
print(len(word_count))
tfidf_model = models.TfidfModel(word_count)     #建立tfidf模型
tfidf = tfidf_model[word_count]
print(tfidf)
tfidf_matrix = corpus2dense(tfidf, len(dictionary))
tfidf_matrix

model = gensim.models.Word2Vec(text, size=100, window=5, min_count=2)    #训练词向量
model.wv[u'月台']

因为库函数可能会更新，导致部分函数无法使用，所以使用时请注意时间，现在是2018/3/29

猜你喜欢

转载自blog.csdn.net/z2539329562/article/details/79737281

中文文本数据结构化处理实例

【Java开源库 SPL】结构化处理数据

【Scikit-Learn 中文文档】处理文本数据 - scikit-learn 教程 | ApacheCN

mongodb中文文本数据（新闻评论）预处理代码（python+java）

Python 医学文本结构化，文本分段，文本正则化处理，医学文本拆分成段落

中文文本预处理

《中文文本信息抽取模型与方法研究》2：基于CRF的半结构化文本信息抽取

JAVA结构化处理开源库SPL

java结构化处理利器_开源库SPL

处理文本数据

情感分析中文本数据预处理

文本数据处理：基本技巧与实例分析

医疗大数据如何结构化处理助力临床科研-论电子病历数据清理的必要性

中文文本挖掘处理流程

pandas 处理文本数据

对处理文本数据的认识

文本数据处理

Pandas处理文本数据

keras处理文本数据

数据结构-数组-大量重复数据优化处理

中文文本蕴含计算项目(88万中文文本蕴含数据集+中文文本蕴含模型)

百度OCR识别结构结构化处理视频

中文文本纠错（CSC）任务Benchmark数据集SIGHAN介绍与预处理

基本数据结构

数据结构化与保存

扁平数据结构化

中文文本情感识别：jieba分词应用实例

MaxCompute与OSS非结构化数据读写互通（及图像处理实例）

公开课报名 | 基于自定义模板的OCR结果的结构化处理技术

基于模板的文字识别结果结构化处理技术 | 公开课速记

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)