英文文章单词个数的统计与排序 - 代码天地

英文文章单词个数的统计与排序

其他 2020-08-11 12:39:10 阅读次数: 0

今天，有个朋友问了这个问题，刚看见的时候，觉得这个问题挺容易的。

在网上随便找了一篇纯英文美文，保存成txt文件

首先用获取文件内的文章内容，英文之间是通过空格区分间隙，利用字符中split()方法将文章切分成单词，存入一个列表中

python中set集合可以实现去去重的功能，之后再将set集合转换成为列表，列表操作更加的便利

for循环去重后的列表，判断单词持否在未去重的列表内出现

在单词出现数量排序的时候，我遇到了问题，尝试好了好几个方法都没有解决，百度时发现，忽略了sorted()方法与lambda匿名函数的使用。当时学习列表的时候只记得sorted方式中的reverse参数，匿名函数只是简单的了解一下。

详细的研究了sorte()方法与lambda匿名函数，问题仅用一行代码解决

sorted(iterable, cmp=None, key=None, reverse=False)

• iterable -- 可迭代对象。
• cmp -- 比较的函数，这个具有两个参数，参数的值都是从可迭代对象中取出，
此函数必须遵守的规则为，大于则返回1，小于则返回-1，等于则返回0。
• key -- 主要是用来进行比较的元素，只有一个参数，具体的函数的参数就是取自于可迭代对象中，
指定可迭代对象中的一个元素来进行排序。
• reverse -- 排序规则，reverse = True 降序， reverse = False 升序（默认）。

with open("./data/English_wenzhang.txt", "r", encoding="UTF-8") as f_r:
    content = f_r.read()
# 未去重的单词列表
con_list = content.split()
# 去重合后的set集合
set1 = set(con_list)
# 去重后的单词列表
word_list = list(set1)

dict1 = {}
for i in range(len(con_list)):
    dict1[word_list[i]] = 0
    for j in range(len(con_list)):
        if word_list[i] == con_list[j]:
            dict1[word_list[i]] += 1
# print(dict1)
# print(len(dict1))

print(sorted(dict1.items(), key=lambda kv: (kv[1], kv[0])))

猜你喜欢

转载自blog.csdn.net/qq_41292236/article/details/101384744

英文文章单词个数的统计与排序

统计英文文章单词出现的频率

英文单词个数统计及排序

统计英文文章的10个高频单词

python--英文文章单词数量统计

C 统计英文文本word（单词）个数

Java | PTA：jmu-Java-m06 统计一篇英文文章中出现的不重复单词的个数

英文单词个数的统计

统计一篇英文文章中出现次数最多的10个单词

统计文章中单词个数

python 统计文章单词个数

统计文章单词个数-java

统计英文文本的字母个数

统计英文文档中每个单词出现的次数并排序

[Trie树] 统计英文文本中单词出现的个数 - C语言实现 - 考虑数字、英文

topK问题——统计一篇很长的英文文章中频次出现最高的10个单词

Python实现统计一篇英文文章内每个单词的出现频率的两种很好解法

python3学习笔记之三——统计英文文章中出现次数最多的单词前三

录入一篇英文文章（存放在字符数组a[n]中），统计单词个数，并按照单词的长度由小到大依次输出各个单词，假定这篇文章不超过80个字符，单词不超过20个

5.1统计英文文件中的单词数python

统计一篇英文文章内每个单词出现频率，并返回出现频率最高的前10个单词及其出现次数

英文文章分词及已知单词位置计算单词在文章中起始下标

英文文章转音标英文单词转音标 https://tophonetics.com/zh/

文本中英文单词的统计个数

输入多行英文字符，统计单词个数

Python统计pdf中英文单词的个数

统计一篇文章单词的个数（map）

android自定义简易英文文章阅读器，支持点击查单词

android自定义简易英文文章阅读器，支持点击查单词

android自定义简易英文文章阅读器，支持点击查单词

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)