【python】英文文本分词词频统计 - 代码天地

【python】英文文本分词词频统计

其他 2019-02-10 00:00:57 阅读次数: 0

import re
import functools
import pandas as pd
import csv
import os, sys

# 把文本内容整理成一个word list
txt=open('/Users/suyue/Downloads/all(1).txt')
readl=txt.readline()


r='[’!"#$%&\'()*+,-./:;<=>?@[\\]^`{|}~]+'
word_list2 = []
while readl:
    readl = txt.readline()
    ff = str(readl)
    ff=re.sub(r,' ',ff) 
    words=ff.split(' ') 
    for word in words:
        word_list2.append(word)    
#print(word_list2)
txt.close()


#统计频次
tf = {}
for word in word_list2:
    word = word.lower()
        # print(word)
    word = ''.join(word.split())
    if word in tf:
        tf[word] += 1
    else:
        tf[word] = 1
#print(tf) 


#将结果输出到csv
with open('tmp_table.csv','w') as csvfile:

    spamwriter=csv.writer(csvfile)
    spamwriter.writerow(['col1','col2'])
    for aa,bb in tf.items():
        spamwriter.writerow([aa,bb])



#读入两个需要匹配的文件

df1=pd.read_csv('/Users/suyue/desktop/tmp_table.csv')
print(df1)

df2=pd.read_csv('/Users/suyue/desktop/table_structure.txt',sep=',')
print(df2)



#删除缓兵之计的中间文件
if(os.path.exists("/Users/suyue/desktop/tmp_table.csv")):
    os.remove("/Users/suyue/desktop/tmp_table.csv")

#merge
newdf=pd.merge(df2,df1,left_on='table_name',right_on='col1',how='left') 
print(newdf)
newnewdf=pd.merge(newdf,df1,left_on='column_name',right_on='col1',how='left') 
print(newnewdf)

#结果输出
if(os.path.exists("/Users/suyue/desktop/jieguo2.csv")):
    os.remove("/Users/suyue/desktop/jieguo2.csv")
newnewdf.to_csv('jieguo2.csv')

猜你喜欢

转载自blog.csdn.net/qq_41839921/article/details/83653126

【python】英文文本分词词频统计

【Python】英文文本分词与词频统计（split()函数、re库）

NLTK健康领域英文文本分词、词性标注、词频统计

【Python】对英文文本进行词频统计（分词、字典排序、文件读写）

Python英文文本词频统计——读取英文文本进行词频统计并输出

【编译原理】Python实现对一个英文文本的词频统计

201671010438 王奕晗英文文本词频统计

JAVA小练习之英文文本词频统计（三）

英文文本分类

Python 分词并统计词频

Python 中文文本分词（包含标点的移除）

[python] jieba 模块 -- 给中文文本分词

python词频统计_英文

java 中文文本分词

中文文本分词 API 接口

Python小程序：文本词频统计（英文+中文）

python进行分词及统计词频

Python jieba 分词+词频统计

Python文本词频统计

【Python】文本词频统计

基于LSTM英文文本分类

Python3进行中文文章分词实现词云图与TOP词频统计

python英文与中文的词频统计

使用spark 对文本分词统计

简单的朴素贝叶斯算法实现英文文本分类（Python实现）

Python之文本词频统计

Python-文本词频统计

Python实例--文本词频统计

统计英文文本的字母个数

python实现中文分词和词频统计

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)