1. 读邮件数据集文件，提取邮件本身与标签。

列表

numpy数组

代码：

import numpy as np
import csv
p =r"SMSSpamCollection"
sms= open(p,'r',encoding='utf-8')
data=csv.reader(sms,delimiter = "\t")
for i in data:
    print(i)
sms.close()
截图：

2.邮件预处理

邮件分句
名子分词
去掉过短的单词
词性还原
连接成字符串

传统方法来实现
nltk库的安装与使用

pip install nltk

import nltk

nltk.download() # sever地址改成 http://www.nltk.org/nltk_data/

或

扫描二维码关注公众号，回复： 11200839 查看本文章

https://github.com/nltk/nltk_data下载gh-pages分支，里面的Packages就是我们要的资源。

将Packages文件夹改名为nltk_data。

或

网盘链接：https://pan.baidu.com/s/1iJGCrz4fW3uYpuquB5jbew 提取码：o5ea

放在用户目录。

----------------------------------

安装完成，通过下述命令可查看nltk版本：

import nltk
print nltk.__doc__

安装：

查看版本：

2.1 nltk库分词

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

2.2 punkt 停用词

from nltk.corpus import stopwords

stops=stopwords.words('english')

*如果提示需要下载punkt

nltk.download(‘punkt’)

或下载punkt.zip

https://pan.baidu.com/s/1OwLB0O8fBWkdLx8VJ-9uNQ 密码：mema

复制到对应的失败的目录C:\Users\Administrator\AppData\Roaming\nltk_data\tokenizers并解压。

2.3 NLTK 词性标注

nltk.pos_tag(tokens)

2.4 Lemmatisation（词性还原）

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

lemmatizer.lemmatize('leaves') #缺省名词

lemmatizer.lemmatize('best',pos='a')

lemmatizer.lemmatize('made',pos='v')

一般先要分词、词性标注，再按词性做词性还原。

2.5 编写预处理函数

def preprocessing(text):

sms_data.append(preprocessing(line[1])) #对每封邮件做预处理

3. 训练集与测试集

4. 词向量

5. 模型

查看是否安装nltk_data成功：

放在用户路径：

可以放的路径（根据自己的硬盘）：

*如果提示需要下载punkt

nltk.download(‘punkt’)

或下载punkt.zip https://pan.baidu.com/s/1OwLB0O8fBWkdLx8VJ-9uNQ 密码：mema

复制到对应的失败的目录C:\Users\Administrator\AppData\Roaming\nltk_data\tokenizers并解压。

punkt放在的路径：

代码：

import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import csv


def preprocessing(text):
    tokens = [];
    for sent in nltk.sent_tokenize(text):      #1.对录入的文本按照句子进行分割;
        for word in nltk.word_tokenize(sent):  #2.对句子进行分词；
            tokens.append(word)              #存放如token中


    #3.去除停用词(如i\me\my)
    stops=stopwords.words("english")
    tokens = [token for token in tokens if token not in stops]

    #4.大小写转换，并去掉短于3的词
    tokens=[token.lower() for token in tokens if len(token) >=3]

    #NLTK词性标注(
    nltk.pos_tag(tokens)

    #5.词性还原Lemmatisation
    lemmatizer=WordNetLemmatizer()  #定义还原对象
    tokens=[lemmatizer.lemmatize(token,pos='n')for token in tokens]  #名词
    tokens=[lemmatizer.lemmatize(token,pos='v')for token in tokens]  #动词
    tokens=[lemmatizer.lemmatize(token,pos='a')for token in tokens]  #形容词

    return tokens; #返回处理完成后的文本

sms=open("SMSSpamCollection",'r',encoding='utf-8')  #数据读取
sms_data=[]
sms_label=[]
csv_reader=csv.reader(sms,delimiter='\t')
for line in csv_reader:  #预处理
    sms_label.append(line[0])
    sms_data.append(preprocessing(line[1]))
sms.close()

print("标题内容：",sms_label)    #标题
print("处理后内容：")               #处理后的邮件内容
for i in sms_data:
    print(i)
截图：

作业十二朴素贝叶斯垃圾邮件

2.1 nltk库分词

2.2 punkt 停用词

2.3 NLTK 词性标注

2.4 Lemmatisation（词性还原）

2.5 编写预处理函数

猜你喜欢

作业十二 朴素贝叶斯垃圾邮件

2.1 nltk库 分词

2.2 punkt 停用词

2.3 NLTK 词性标注

2.4 Lemmatisation（词性还原）

2.5 编写预处理函数

猜你喜欢

作业十二朴素贝叶斯垃圾邮件

2.1 nltk库分词