统计数据集(txt文档)中的单词种类 - 代码天地

统计数据集(txt文档)中的单词种类

其他 2020-04-06 22:41:17 阅读次数: 0

# (seq.in, ./vocab/in_vocab) seq.in是输入句子，in_vab是字典
def createVocabulary(input_path, output_path, no_pad=False, no_unk=False):
    if not isinstance(input_path, str):#异常
        raise TypeError('input_path should be string')

    if not isinstance(output_path, str):#异常
        raise TypeError('output_path should be string')

    vocab = {}
    with open(input_path, 'r',encoding='UTF-8') as fd, \
            open(output_path, 'w+',encoding='UTF-8') as out:
        for line in fd:#处理每句话
            line = line.rstrip('\r\n')
            words = line.split()

            for w in words:#针对每个单词,统计出现次数
                if w == '_UNK':
                    if str.isdigit(w) == True:
                        w = '0'
                if w in vocab:
                    vocab[w] += 1
                else:
                    vocab[w] = 1
        if no_pad == False:#sorted()排序
            vocab = ['_PAD', '_UNK'] + sorted(vocab, key=vocab.get, reverse=True)
        else:
            vocab = ['_UNK'] + sorted(vocab, key=vocab.get, reverse=True)
        for v in vocab:#将出现的词都输入到in_vocab中
            out.write(v + '\n')

发布了41 篇原创文章 · 获赞 44 · 访问量 7665

私信关注

猜你喜欢

转载自blog.csdn.net/tailonh/article/details/105038660

统计数据集(txt文档)中的单词种类

Python中的统计数据展示

统计txt文档中的单词个数

Python统计数据集文件数

《统计数据的真相》

MySQL 统计数据

统计数据分类

laravel 统计数据

mysql统计数据

最新统计数据

sqlite 统计数据

统计数据记录

sql 匹配字段中开头统计数据

前端页面业务中的埋点统计数据

统计数据库大小

Excel透视统计数据

dorado 重写foot的统计数据

Oracle根据条件统计数据

统计数据量

ORACLE按周统计数据

mysql的统计数据总汇

mysql 分段统计数据

统计数据查询地址

JIRA图表统计数据

PHP 统计数据合并

Excel统计数据并作图

统计数据之HashMap

mysql 按周统计数据

统计数据会撒谎

sar网络统计数据

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)