context2vec 系统分析

一、context2vec项目地址:https://github.com/orenmel/context2vec

二、测试数据集:

     ukWaC:http://wacky.sslmit.unibo.it/doku.php?id=corpora

     具体获得下载链接,需要发邮件问语料的制作方要;一封邮件过去,对方很乐意的给了下载链接,再次表示感谢。

三、数据预处理:

     根据论文要求,用于训练的语料要求是每一句一行,遇到的问题如下:

     1、如何界定 句:从获得语料看,一句是 分号(,)、句号(.)  截断的字符串?这个粒度的定义需要明确

          这里就使用 句号(.) 截断的字符串作为一句话,放到语料中的一行;然后去除所有其他的分句符。

发布了78 篇原创文章 · 获赞 4 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/wangxiaosu/article/details/88732167