[原]基于体裁的中文网页自动分类的研究与实现

版权说明:本论文为原创性文章,已经公开发表在 中国科技论文在线 (http://www.paper.edu.cn)。未经许可不可剽窃、抄袭、转载,违者责任自负。引用者请注明出处如下:

赵文, 唐建雄. 基于体裁的中文网页自动分类的研究与实现[EB/OL]. 中国科技论文在线(http://www.paper.edu.cn), 2008,4.

论文下载地址:http://www.paper.edu.cn/paper.php?serial_number=200804-268&task=comment

论文摘要:

基于体裁的中文网页自动分类的研究与实现

 

E-mail[email protected]

要:为了优化互联网信息检索系统,使其能更准确的从结果集中区分出满足用户需要的页面,本文提出了一种对网页按体裁分类的方法。该方法以网页的标签、形态、内容、词性作为体裁特征,并以特征项的频率、集中度和分散度三者结合为衡量标准,利用自动特征选取技术,从中选取出有价值的特征项;然后采用基于相似度加权的KNN分类算法对网页按体裁进行自动分类;最后设计和实现了分类系统,并进行了实验测试与结果分析。结果表明:分类器开放测试的平均精度达到80%。

关键词网页分类;体裁;特征提取;K近邻算法

中图分类号:TP391 文献标识码:A

 

 

猜你喜欢

转载自zwbill.iteye.com/blog/1555248