一、context2vec项目地址:https://github.com/orenmel/context2vec
二、测试数据集:
ukWaC:http://wacky.sslmit.unibo.it/doku.php?id=corpora
具体获得下载链接,需要发邮件问语料的制作方要;一封邮件过去,对方很乐意的给了下载链接,再次表示感谢。
三、数据预处理:
根据论文要求,用于训练的语料要求是每一句一行,遇到的问题如下:
1、如何界定 句:从获得语料看,一句是 分号(,)、句号(.) 截断的字符串?这个粒度的定义需要明确
这里就使用 句号(.) 截断的字符串作为一句话,放到语料中的一行;然后去除所有其他的分句符。