1. 读邮件数据集文件，提取邮件本身与标签。

列表

numpy数组

运行结果如下：

2.邮件预处理

邮件分句
名子分词
去掉过短的单词
词性还原
连接成字符串

传统方法来实现
nltk库的安装与使用

pip install nltk

import nltk

nltk.download() # sever地址改成 http://www.nltk.org/nltk_data/

或

https://github.com/nltk/nltk_data下载gh-pages分支，里面的Packages就是我们要的资源。

将Packages文件夹改名为nltk_data。

或

网盘链接：https://pan.baidu.com/s/1iJGCrz4fW3uYpuquB5jbew 提取码：o5ea

放在用户目录。

----------------------------------

安装完成，通过下述命令可查看nltk版本：

import nltk
print nltk.__doc__

2.1 nltk库分词

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

2.2 punkt 停用词

from nltk.corpus import stopwords

stops=stopwords.words('english')

*如果提示需要下载punkt

nltk.download(‘punkt’)

或下载punkt.zip

https://pan.baidu.com/s/1OwLB0O8fBWkdLx8VJ-9uNQ 密码：mema

复制到对应的失败的目录C:\Users\Administrator\AppData\Roaming\nltk_data\tokenizers并解压。

2.3 NLTK 词性标注

nltk.pos_tag(tokens)

2.4 Lemmatisation（词性还原）

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

lemmatizer.lemmatize('leaves') #缺省名词

lemmatizer.lemmatize('best',pos='a')

lemmatizer.lemmatize('made',pos='v')

一般先要分词、词性标注，再按词性做词性还原。

2.5 编写预处理函数

def preprocessing(text):

sms_data.append(preprocessing(line[1])) #对每封邮件做预处理

预处理代码如下：

# -*- coding:utf-8 -*-
# 开发人员：爱飞的大白鲨
# 开发时间：2020/5/1715:48
# 文件名称：垃圾邮件分类2.py
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import csv

def preprocessing(text):
    tokens = [];
    for sent in nltk.sent_tokenize(text):      #文本分割;
        for word in nltk.word_tokenize(sent):  #单词分类；
            tokens.append(word)


    #3.去除停用词(如i\me\my等)
    stops=stopwords.words("english")
    tokens = [token for token in tokens if token not in stops]

    # 4.大小转换，去掉少于三个字母单词
    tokens=[token.lower() for token in tokens if len(token) >=3]
    # NLTK词性标注
    nltk.pos_tag(tokens)

    #5.词性还原
    lemmatizer=WordNetLemmatizer()  #定义还原对象
    tokens=[lemmatizer.lemmatize(token,pos='n')for token in tokens]  #名词
    tokens=[lemmatizer.lemmatize(token,pos='v')for token in tokens]  #动词
    tokens=[lemmatizer.lemmatize(token,pos='a')for token in tokens]  #形容词

    # 返回处理完成后的文本
    return tokens;
file=r'C:\Users\Administrator\PycharmProjects\机器学习\data\SMSSpamCollection.csv'
sms=open(file,'r',encoding='utf-8')  #读取数据
sms_label=[] #存储标题
sms_data=[] #存储数据
csv_reader=csv.reader(sms,delimiter='\t')
#预处理
for line in csv_reader:
    sms_label.append(line[0])
    sms_data.append(preprocessing(line[1]))
sms.close()
#打印结果
print("标题：",sms_label)
print("处理后的内容：")
for i in sms_data:
    print(i)

运行结果如下：

3. 训练集与测试集

4. 词向量

5. 模型

机器学习之垃圾邮件分类（朴素贝叶斯）

2.1 nltk库分词

2.2 punkt 停用词

2.3 NLTK 词性标注

2.4 Lemmatisation（词性还原）

2.5 编写预处理函数

猜你喜欢

机器学习之垃圾邮件分类（朴素贝叶斯）

2.1 nltk库 分词

2.2 punkt 停用词

2.3 NLTK 词性标注

2.4 Lemmatisation（词性还原）

2.5 编写预处理函数

猜你喜欢

2.1 nltk库分词