版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
问题:通过对文本中的信息分析,找到文章对应的作者
用到的算法模型:SVM,支持向量机。
SVM可以简单看着一种二类分类器(画一条线,使两边类别的点到线的距离最大化),扩展后可以是多类分类 器,但实际也是A类和非A类的二类分类,只是进行多次,将A B C D....类分别分出来。
解决问题两种思路:
1、功能词。
功能词(如the,which,that...)是指本身含义很少,但却是组成句子必不可少的成分。一般认为功能词的使用通常不是由文档的内容决定而是有作者的习惯决定。因此通过统计文档的功能词分布可以关联到作者的归属信息。
sklearn相关模块:slearn.svm用来通过功能词分布分类作者
2、字符N元语法。
与单词N元语法相对应,字符N元语法以单个字符为单位(N通常2~6)
思路和上面功能词一样,通过统计字符N元语法然后通过其分布和SVN分类相应的作者