中英文分词生成词频 - 代码天地

中英文分词生成词频

其他 2018-10-15 11:10:24 阅读次数: 0

def cut():
    str = ''
    '''open打开歌词数据,加入str'''
    with open('d:/style.txt','r') as f:
        for line in f.readlines():
            str += line.strip()
    '''用for循环+replace去除标点符号'''
    for old in '，,.。？?!！':
        str.replace(old,' ')
    str = str.lower()#转换大小写
    music = str.split(' ')#按空格划分
    dic = {}
    #统计词频
    for i in set(music):
        dic[i] = music.count(i)
    return dic
def sort_dic(dic):
    return sorted(dic.items(),key= lambda d:d[1],reverse=True)#通过sort传入iterable,if指定为元祖第二个元素

if __name__ == '__main__':
    dic = cut()
    print(sort_dic(dic))

英文通过空格分割，中文使用jieba分词并加载停用词表

二、中文分词

1.准备utf-8编码的文本文件file

2.通过文件读取字符串 str

3.对文本进行预处理

4.分解提取单词 list

5.单词计数字典 set , dict

6.按词频排序 list.sort(key=)

7.排除语法型词汇，代词、冠词、连词等无语义词

8.输出TOP(20)

def ch_cut(file,stop):
    with open(file=file) as f:
        f = f.read()
    f = jieba.cut(f)
    stoplist = []
    #加载停用词表stoplist
    with open(file=stop) as stopword:
        for i in stopword.readlines():
            stoplist.append(i.strip())
    li = [i for i in f if i not in stoplist]
    dic = {}
    for key in set(li):
        dic[key] = li.count(key)
    return sorted(dic.items(),key= lambda d:d[1],reverse=True)

if __name__ == '__main__':
    print(ch_cut('d:/xiaoshuo.txt','d:/stopword.txt')[:20])

猜你喜欢

转载自www.cnblogs.com/smallgrass/p/9789748.html

中英文分词生成词频

中英文词频

中英文分词分句

完整的中英文词频统计

中英文词频统计

完整中英文词频

solr中英文分词模糊查询

Solr的中英文分词实现(转载)

阶段作业1：完整的中英文词频统计

自然语言处理（一）——中英文分词

jieba nltk 进行中英文分词

中英文分句

中英文统计

中英文换行

2018.5.27（python）实例：文本词频分析(中英文各一份)及列表的sort（）使用

阶段作业1：完整的中英文词频统计+补交上次作业

中英文混合排序

eclipse中英文互转

UIDatePicker中英文显示

BIOS中英文对照

Mysql 中英文排序

Eclipse 中英文配置

浅谈中英文排版

python中英文对照

前端中英文互译

Qt中英文匹配

HTML中英文对照

页面中英文的转换

java 判断中英文

swagger支持中英文

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

面试爱奇艺，竟然挂在第5轮……

scala方法和函数的区别

NYIST--2018大一新生第一次周赛题解

java如何通过client客戶端http实现get/ post请求传递json参数到restful 服务接口

RabbitMQ 队列类型

2018-2019-1 20165311 20165329 20165334 实验一开发环境的熟悉

iOS打包工具配置相应的文件路径一键打包到指定位置

【每日一题】替换空格

【转载】FPGA配置方式

旅行青蛙

每日归档

更多

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)