机器学习实战——朴素贝叶斯Python实现记录

问题:regEx= re.compile('\\W*')

属于打印错误。

正确:     regEx = re.compile('\W*')

regEx = re.compile('\W*')

关于'\W' 和'\w'区别,可参考博客:https://blog.csdn.net/wl_ss/article/details/78241782

正则表达式元字符的具体应用:

/fo+/ 因为上述正则表达式中包含“+”元字符,表示可以与目标对象中的 “fool”, “fo”, 或者 “football”等在字母f后面连续出现一个或多个字母o的字符串相匹配。 

/eg*/ 因为上述正则表达式中包含“*”元字符,表示可以与目标对象中的 “easy”, “ego”, 或者 “egg”等在字母e后面连续出现零个或多个字母g的字符串相匹配。 

/Wil?/ 因为上述正则表达式中包含“?”元字符,表示可以与目标对象中的 “Win”, 或者“Wilson”,等在字母i后面连续出现零个或一个字母l的字符串相匹配。

有时候不知道要匹配多少字符。为了能适应这种不确定性,正则表达式支持限定符的概念。这些限定符可以指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。

{n} n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。 

{n,} n 是一个非负整数。至少匹配 n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。 

{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。 

扫描二维码关注公众号,回复: 3645009 查看本文章

除了元字符之外,用户还可以精确指定模式在匹配对象中出现的频率。例如,/jim {2,6}/ 上述正则表达式规定字符m可以在匹配对象中连续出现2-6次,因此,上述正则表达式可以同jimmy或jimmmmmy等字符串相匹配。

 在对如何使用正则表达式有了初步了解之后,我们来看一下其它几个重要的元字符的使用方式。 

代码 

\s:用于匹配单个空格符,包括tab键和换行符; 
\S:用于匹配除单个空格符之外的所有字符; 
\d:用于匹配从0到9的数字; 
\w:用于匹配字母,数字或下划线字符; 
\W:用于匹配所有与\w不匹配的字符; 
. :用于匹配除换行符之外的所有字符。

(说明:我们可以把\s和\S以及\w和\W看作互为逆运算) 
下面,我们就通过实例看一下如何在正则表达式中使用上述元字符。 
/\s+/ 上述正则表达式可以用于匹配目标对象中的一个或多个空格字符。 
/\d000/ 如果我们手中有一份复杂的财务报表,那么我们可以通过上述正则表达式轻而易举的查找到所有总额达千元的款项。 
除了我们以上所介绍的元字符之外,正则表达式中还具有另外一种较为独特的专用字符,即定位符。定位符用于规定匹配模式在目标对象中的出现位置。 较为常用的定位符包括: “^”, “$”, “\b” 以及 “\B”。

问题:FileNotFoundError: [Errno 2] No such file or directory: 'email/ham/6.txt'

解决方案:简单点.............把这个文件夹直接拖到Python在C盘的安装目录里。

至于目录在哪里....

常用方法是:

打开我们的cmd命令

输入Python

输入 import sys

输入 print(sys.path)

列表中的第四个将是你的安装路径 就像   :C:\Users\34856\AppData\Local\Programs\Python\Python36

这种样子

最简单的方法!

打开Python的IDLE界面  点Open ,基本上打开的路径就是python的默认路径。

问题:TypeError: 'range' object doesn't support item deletion

原因:python3.x   range返回的是range对象,不返回数组对象

解决方法:

把 trainingSet = range(50) 改为 trainingSet = list(range(50))

问题:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence

解决办法:打开email\ham\23.txt,找到SciFinance?,把?替换成空格即可。

问题:IndexError: list index out of range

第1种可能情况
list[index]index超出范围,也就是常说的数组越界
第2种可能情况
list是一个空的 没有一个元素 

 

猜你喜欢

转载自blog.csdn.net/ihiefoxboq/article/details/82841086