研究生周报

周报

2018.6.25-2018.6.29

# 本周的工作：

1. 本周看的论文的是Entropy-based Term WeightingSchemes for Text Categorization in VSM，发表于2015 IEEE27th International Conference on Tools with Artificial Intelligence，这篇论文主要讲了在向量空间模型中，现有的各项文本分类的技术都有其弊端所在，因此提出了(tf·dc、tf·bdc)这两种基于熵的术语加权方案，并阐述其优势所在。

本论文除摘要外分为六部分：介绍、调查术语加权策略、基于熵的术语加权策略、实验、讨论、总结

首先介绍了文本分类、VSM、术语加权的含义和作用，之后将术语加权根据是否使用训练文件而分类未监管、未监管类型，并介绍了未监管是基于信息检索的，以及有监管技术加权策略的三种限制：

1）.多类事件中，PC为单类，NC为多类，NC主导了权重

2）.多个类结合成一个NC，很多不同类中术语被忽略掉

3）.在测试文档中没有类标签

tf·dc表示了术语的全局集中程度，解决了问题1、2，而tf·bdc对tf·dc进行了优化，不使用用绝对术语频率，而是使用属于在相关类中出现的比例。

然后利用属于频率（tf）对比了各未监管策略，发现其缺陷，idf无法反映出术语分类相关性的优势，而且训练文档的先验分类信息没有被考虑。之后对监管策略对比，基于特征选择的策略（chi-square (chi), information gain (ig), mutual information (mi),gain ratio (gr),）都会产生问题一。rf则会产生问题二。iqf·qf·icf的问题在于不足以反映一个术语的类分布情况。之后我们考虑到基于熵的术语加权策略，即提出了dc：

接着本论文用相关类中出现的比例代替绝对术语频率，提出了bdc：

之后通过在KNN,SVM,以及二元分类中的实验，验证了tf·bdc，tf·dc总是优于现有的基于熵的术语加权策略。

本周看论文对于文本分类的基础知识，进行了初步学习，论文精读一遍，粗读一遍，对其中的术语加权方法有了初步认识，。

2. 本周编码完成对糗事百科中段子的爬虫，京东商品信息的爬虫，对于Python的语法规则，Beautiful soup库的使用，以及正则表达式的使用练习，其中糗事百科的爬虫，练习了定向爬虫的多页爬取；其中京东商品信息爬虫中商品的评论爬取，运用到了动态页面的爬取技术，利用csv库信息存入excel表格中，便于分析。本周的爬虫工作让我对Python的使用更加熟练，对于爬虫技术也从一窍不通到掌握了基础爬虫的能力。

3. 本周对Cike各个项目组，实验室以及学术研究方向的负责人进行确定，将各项事务职责进行了细化，并将《cike职责划分》文件加入共享文件夹，由各责任人进行优化。

4.本周三参加实验室研讨会，听到吴汉瑞博士的Transfer Learning with Multiple Domain演讲，关于迁移学习有了初步了解，注意到将PPT要注意专业术语的解释。

# 下周的计划：

1. 将论文深入理解，并将论文实现。

2. 对机器学习的基础知识进行学习。

猜你喜欢