1、问题
有大量已经标好的垃圾邮件,此时需要建立一个垃圾邮件分类器。
2、得到x,y
在所有邮件当中选取1万到5万个出现频率很高的单词,把它作为属性(或者是标题,邮件地址等等),此时查看每个邮件,若该邮件中出现了哪个单词就把对应的属性置为1,否则为0,此时生成了x,每个样本都有了x。
例如:
有大量已经标好的垃圾邮件,此时需要建立一个垃圾邮件分类器。
在所有邮件当中选取1万到5万个出现频率很高的单词,把它作为属性(或者是标题,邮件地址等等),此时查看每个邮件,若该邮件中出现了哪个单词就把对应的属性置为1,否则为0,此时生成了x,每个样本都有了x。
例如: