研究生周报

周报

 

2018.6.25-2018.6.29


 

# 本周的工作:

1. 本周看的论文的是Entropy-based Term WeightingSchemes for Text Categorization in VSM,发表于2015 IEEE27th International Conference on Tools with Artificial Intelligence,这篇论文主要讲了在向量空间模型中,现有的各项文本分类的技术都有其弊端所在,因此提出了(tf·dc、tf·bdc)这两种基于熵的术语加权方案,并阐述其优势所在。

本论文除摘要外分为六部分:介绍、调查术语加权策略、基于熵的术语加权策略、实验、讨论、总结

首先介绍了文本分类、VSM、术语加权的含义和作用,之后将术语加权根据是否使用训练文件而分类未监管、未监管类型,并介绍了未监管是基于信息检索的,以及有监管技术加权策略的三种限制:

1).多类事件中,PC为单类,NC为多类,NC主导了权重

2).多个类结合成一个NC,很多不同类中术语被忽略掉

3).在测试文档中没有类标签

tf·dc表示了术语的全局集中程度,解决了问题1、2,而tf·bdc对tf·dc进行了优化,不使用用绝对术语频率,而是使用属于在相关类中出现的比例。

然后利用属于频率(tf)对比了各未监管策略,发现其缺陷,idf无法反映出术语分类相关性的优势,而且训练文档的先验分类信息没有被考虑。之后对监管策略对比,基于特征选择的策略(chi-square (chi), information gain (ig), mutual information (mi),gain ratio (gr),)都会产生问题一。rf则会产生问题二。iqf·qf·icf的问题在于不足以反映一个术语的类分布情况。之后我们考虑到基于熵的术语加权策略,即提出了dc:

接着本论文用相关类中出现的比例代替绝对术语频率,提出了bdc

之后通过在KNN,SVM,以及二元分类中的实验,验证了tf·bdc,tf·dc总是优于现有的基于熵的术语加权策略。

本周看论文对于文本分类的基础知识,进行了初步学习,论文精读一遍,粗读一遍,对其中的术语加权方法有了初步认识,。

 

2. 本周编码完成对糗事百科中段子的爬虫,京东商品信息的爬虫,对于Python的语法规则,Beautiful soup库的使用,以及正则表达式的使用练习,其中糗事百科的爬虫,练习了定向爬虫的多页爬取;其中京东商品信息爬虫中商品的评论爬取,运用到了动态页面的爬取技术,利用csv库信息存入excel表格中,便于分析。本周的爬虫工作让我对Python的使用更加熟练,对于爬虫技术也从一窍不通到掌握了基础爬虫的能力。

 

3. 本周对Cike各个项目组,实验室以及学术研究方向的负责人进行确定,将各项事务职责进行了细化,并将《cike职责划分》文件加入共享文件夹,由各责任人进行优化。

 

 

4.本周三参加实验室研讨会,听到吴汉瑞博士的Transfer Learning with Multiple Domain演讲,关于迁移学习有了初步了解,注意到将PPT要注意专业术语的解释。

 

# 下周的计划:

1. 将论文深入理解,并将论文实现。

2. 对机器学习的基础知识进行学习。 

 

 

 

 

 

 

 

 

 


猜你喜欢

转载自blog.csdn.net/liurenfeng007/article/details/80868104