用 Python 统计高频字数 - 代码天地

用 Python 统计高频字数

其他 2018-05-29 20:07:09 阅读次数: 0

转载自http://blog.csdn.net/cxsydjn/article/details/70991846

问题

(来自Udacity机器学习工程师纳米学位预览课程)

用 Python 实现函数 count_words()，该函数输入字符串 s 和数字 n，返回 s 中 n 个出现频率最高的单词。返回值是一个元组列表，包含出现次数最高的 n 个单词及其次数,即 [(<单词1>, <次数1>), (<单词2>, <次数2>), ... ]，按出现次数降序排列。

可以假设所有输入都是小写形式，并且不含标点符号或其他字符（只包含字母和单个空格）。如果出现次数相同，则按字母顺序排列。

例如：

print count_words("betty bought a bit of butter but the butter was bitter",3)

输出：

[('butter', 2), ('a', 1), ('betty', 1)]

解法：

"""Count words."""

def count_words(s, n):
    """Return the n most frequently occuring words in s."""
    w = {}
    sp = s.split()
    # TODO: Count the number of occurences of each word in s
    for i in sp:
        if i not in w:
            w[i] = 1
        else:
            w[i] += 1

    # TODO: Sort the occurences in descending order (alphabetically in case of ties)
    top = sorted(w.items(), key=lambda item:(-item[1], item[0]))
    top_n = top[:n]
    # TODO: Return the top n most frequent words.
    return top_n


def test_run():
    """Test count_words() with some inputs."""
    print count_words("cat bat mat cat bat cat", 3)
    print count_words("betty bought a bit of butter but the butter was bitter", 3)


if __name__ == '__main__':
    test_run()

小结

主要两个小技巧：

用split()将输入字符串按空格分开；
用sorted()函数对字典先按值，再按键进行排序，尤其是item:(-item[1], item[0])) 代表先对item的第二个元素降序排列（item 之前用了-），然后对第一个元素升序排列。多个元素的元组亦然。

猜你喜欢

转载自blog.csdn.net/u012084802/article/details/80263545

用 Python 统计高频字数

【Python进阶】用 Python 统计字数

【Python】哈姆雷特字数统计

Python高频词统计

python 哈姆雷特字数统计词云

使用python统计txt文件字数

使用Python统计小说语言描写的字数

用javascript统计字数,中文计数问题

Python统计列表中重复字数的个数

python 统计字符串汉字数量

用Python统计单词的个数写wordcount

用Python实现自己下载音乐的统计

用Python进行统计单词个数

用Python Pandas包做统计

Python快速统计文件中高频词

用python

用Python来统计知识星球打卡作业

用python统计历年考研英语真题词频

用Python统计excel文件中特征值的个数

用Python编写C\C++代码统计工具

用Python统计新浪微博各种表情使用频率

疫情期间，我用python辅助统计班级打卡信息

记一次用Python统计全国女性Size

用python的re库统计《斗破苍穹》词频

用Python（selenium）爬取重庆统计年鉴信息

Python玩转CSDN，用selenium统计博客的阅读量

用Python学统计学合辑

短小精悍算例：Python和Spark实现字数统计(word count)

用python做量化投资系列之比特币---盘口高频策略

用python写python

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)