【PTA】【浙大版《Python 程序设计》题目集】第7章-1 词频统计 (30 分)

其他 2019-10-26 10:49:38 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/qq_43733499/article/details/102723092

词频统计

请编写程序，对一段英文文本，统计其中所有不同单词的个数，以及词频最大的前10%的单词。

所谓“单词”，是指由不超过80个单词字符组成的连续字符串，但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线，其它字符均认为是单词分隔符。

输入格式:

输入给出一段非空文本，最后以符号#结尾。输入保证存在至少10个不同的单词。

输出格式:

在第一行中输出文本中所有不同单词的个数。注意“单词”不区分英文大小写，例如“PAT”和“pat”被认为是同一个单词。

随后按照词频递减的顺序，按照词频:单词的格式输出词频最大的前10%的单词。若有并列，则按递增字典序输出。

输入样例：

This is a test.

The word "this" is the word with the highest frequency.

Longlonglonglongword should be cut off, so is considered as the same as longlonglonglonee.  But this_8 is different than this, and this, and this...#
this line should be ignored.

输出样例：

（注意：虽然单词the也出现了4次，但因为我们只要输出前10%（即23个单词中的前2个）单词，而按照字母序，the排第3位，所以不输出。）

23
5:this
4:is

思路：

用函数处理方便快捷。

代码如下：

import re
import collections
import sys
words = "".join([line for line in sys.stdin])
words = re.compile(r"\w+", re.I).findall(words.lower().split('#')[0])
words = [each.strip() for each in words]
words = list(map(lambda each: each[0:15] if len(each) > 15 else each, words))
counter = collections.Counter(words)
rank = sorted(counter.items(), key=lambda each: (-each[1], each[0]), reverse=False)
print(len(rank))
for each in rank[0:int(0.1*len(rank))]:
    print("{}:{}".format(each[1], each[0]))

猜你喜欢

转载自blog.csdn.net/qq_43733499/article/details/102723092

【PTA】【浙大版《Python 程序设计》题目集】第7章-1 词频统计 (30 分)

第7章-1 词频统计 (30分)【Python版本】

【PTA】【浙大版《Python 程序设计》题目集】第5章-10 两数之和 (30 分)

【PTA】【浙大版《Python 程序设计》题目集】第5章-9 求矩阵鞍点的个数 (30 分)

浙大版《Python 程序设计》题目集第2章-1 计算 11+12+13+...+m (30分)

7-1 词频统计 (30 分)

第7章-1 词频统计 (30分)

【PTA】【浙大版《Python 程序设计》题目集】第6章函数-3 使用函数统计指定数字的个数 (20 分)

7-35 词频统计（30 分）

【PTA】【浙大版《Python 程序设计》题目集】第5章-8 5-8.能被3,5和7整除的数的个数（用集合实现） (30 分)

浙大版《Python 程序设计》题目集第2章-8 转换函数使用 (30分)

浙大版《Python 程序设计》题目集第1章-1 从键盘输入两个数，求它们的和并输出 (30分)

浙大版《Python 程序设计》题目集第2章-7 产生每位数字相同的n位数 (30分)

【PTA】【浙大版《Python 程序设计》题目集】第6章-7 找出总分最高的学生 (15 分)

PTA 词频统计(30)

浙大版《Python 程序设计》题目集第3章-10 统计大写辅音字母 (15分)

7-3 词频统计（30 分）巧解

7-35 词频统计（30 分）（字符处理）

【PTA】【浙大版《Python 程序设计》题目集】第5章-11 字典合并 (40 分)

【PTA】【浙大版《Python 程序设计》题目集】第6章函数-6 缩写词 (20 分)

【PTA】【浙大版《Python 程序设计》题目集】第6章-2 一帮一 (15 分)

【PTA】【浙大版《Python 程序设计》题目集】第6章-6 求指定层的元素个数 (40 分)

【PTA】【浙大版《Python 程序设计》题目集】第6章-8 *6-7 输出全排列 (20 分)

【PTA】【浙大版《Python 程序设计》题目集】第6章-1 输入列表，求列表元素和(eval输入应用） (10 分)

【PTA】【浙大版《Python 程序设计》题目集】第6章-5 列表元素个数的加权和(1) (40 分)

【PTA】【浙大版《Python 程序设计》题目集】第6章函数-1 使用函数求特殊a串数列和 (10 分)

【PTA】【浙大版《Python 程序设计》题目集】第6章-4 列表数字元素加权和(1) (40 分)

浙大版《Python 程序设计》题目集第1章-2 从键盘输入三个数到a,b,c中，按公式值输出 (30分)

浙大版《Python 程序设计》题目集第3章-15 统计一行文本的单词个数 (15分)

浙大版《Python 程序设计》题目集第1章-3 输出“Python语言简单易学” (10分)

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)