中文字符分字处理工具

中文字符分字处理工具,将字符进行分字处理,字符与字符以空格隔开,如:我是一名小学生 处理后:我 是 一 名 小 学 生
如需要为bert模型处理分字,请看bert分词工具-使用Bert自带的WordPiece分词工具将文本分割成单字

input:

北京时间318日,布鲁克林篮网队今天宣布球队里有4名球员的新冠病毒检测结果呈阳性。
篮网队在声明里没有透露这4名球员的名字,但是指出其中1名球员出现了新冠病毒的症状,另外3名球员无症状。
与此同时,篮网队表示他们正在通知任何与这些球员接触过的人,包括最近的对手。
值得一提的是,NBA无限期停赛之前,篮网的最后一个对手是湖人。
篮网队在声明中还表示,球队里的所有球员目前都在隔离,而且与队医保持密切沟通。
截至目前,已经有7名NBA球员被确诊新冠肺炎。

output:

北 京 时 间 31 8 日 , 布 鲁 克 林 篮 网 队 今 天 宣 布 球 队 里 有 4 名 球 员 的 新 冠 病 毒 检 测 结 果 呈 阳 性 。 
篮 网 队 在 声 明 里 没 有 透 露 这 4 名 球 员 的 名 字 , 但 是 指 出 其 中 1 名 球 员 出 现 了 新 冠 病 毒 的 症 状 , 另 外 3 名 球 员 无 症 状 。 
与 此 同 时 , 篮 网 队 表 示 他 们 正 在 通 知 任 何 与 这 些 球 员 接 触 过 的 人 , 包 括 最 近 的 对 手 。 
值 得 一 提 的 是 , N B A 无 限 期 停 赛 之 前 , 篮 网 的 最 后 一 个 对 手 是 湖 人 。 
篮 网 队 在 声 明 中 还 表 示 , 球 队 里 的 所 有 球 员 目 前 都 在 隔 离 , 而 且 与 队 医 保 持 密 切 沟 通 。 
截 至 目 前 , 已 经 有 7 名 N B A 球 员 被 确 诊 新 冠 肺 炎 。 

代码:

'''
将字符进行分字处理,字符与字符以空格隔开,如:中华人民共和国 处理后:中 华 人 民 共 和 国
Author:西兰
Date:2020-03-18
'''


def write2txt(outfile, line):
    with open('./' + outfile, 'a', encoding='utf-8')as f1:
        f1.write(line + '\n')


def word_spilt(infile, outfile):
    with open('./' + infile, 'r', encoding='utf-8')as f1:
        for line in f1.readlines():
            print(line.strip())
            word_list = list(line.strip())
            text = ''
            for i in range(len(word_list)):
                text += str(word_list[i]) + ' '
            print(text)
            write2txt(outfile, text)


word_spilt('data.txt', 'out.txt')

关注以下公众号,一起玩啊~
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/broccoli2/article/details/104952639