【Python】英文文本分词与词频统计(split()函数、re库)

英文文本分词

1、知识准备
(1)Python中的split()函数的用法
了解split()的基本用法
在这里插入图片描述
(2)python多个分割符split字符串
了解re库的部分用法
在这里插入图片描述
Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。

注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。

2、实践代码
将英文句子分词,并记录通过字典的方式记录每个词语的出现频数。

import re

text="Today I will do what others won’t,\
 so tomorrow I can accomplish what others can’t. "
array=re.split('[ ,.]',text)
print(array)

dic={}
for i in array:
    if i not in dic:
        dic[i] = 1
    else:
        dic[i] += 1
print(dic)

3、实践代码结果
在这里插入图片描述

发布了104 篇原创文章 · 获赞 110 · 访问量 5万+

猜你喜欢

转载自blog.csdn.net/qq_41856733/article/details/104486462