汉语和英语语料库

背了几年单词了,结果词汇量依然少的可怜,今天在知乎上看到一篇文章说10岁的母语者词汇量就达到了 10000 左右,而17岁的高中生已有20000的词汇量,成年人都在20w左右。再看看自己五六千的词汇量。。。。

暑假里每天早晨都会背一些单词,但总是很快忘记了,而且背英语最头疼的一件事情就是同义词是在是太多了,背着背着就混了,就想着怎么把这些单词归归类,系统的整理整理帮助自己去记忆。正好最近在看和nlp有关的东西,关于词这方面有很多关于语料库的介绍,就搜着看了一些,还是有些收获。

首先关于同义词,有个很有名的东西叫WordNet(词网),好像类似一个词典之类的,按同义词放在一起的http://wordnetweb.princeton.edu/perl/webwn,在上面搜索单词,然后可以看到各种上位词、下位词,同义词,反义词。感觉还是挺有意思的。但那么多的词总不能一个个的输进去在搜索呀,然后我就想能不能根据四六级词汇自己把这些意思相近的单词自动组成一团。

说干就干,我就从网上把18年的四级和六级词汇大纲词汇下载下来,然后借助python,把四六级词汇表读进去之后,给定汉语词汇,然后就把跟这个输入的汉语意思相关的英语单词输出出来,比如说,我一开始的时候用的是“能力”这个词,然后在四级词汇表里就出来如下词汇

['ability n.能力;能耐,本领  ', 'capable a.有能力的,有才能的  ', 'capacity n.容量;能力;能量  ', 'competent a.有能力的;应该做的  ', 'efficient a.效率高的,有能力的  ', 'faculty n.才能,能力;系,科  ', 'might n.力量,威力,能力  ', 'power n.能力;力;权;幂  ']

恩,但又有一个问题,我该用哪些词语作为搜索词汇呢,我第一个想的就是根据词频,把最常用的词作为关键词。所以网上搜了一下统计词频的工具,找到一个中文语料库以及一个coca20000英语词频表。看了一下这个coca20000词频表。里面是最常用的20000词汇,几乎囊括了能想到的所有英语类考试的词汇。简直好东西啊!!

进一步在网上搜一下,好多专业的机构也做过类似的事情,都已经有现成的资源了,所以最后就直接拿来用了。好轮子早就有人造好了啊,感觉自己能想到的事情,其实有很多前人早就想到了。所以,多看多学是很重要滴

猜你喜欢

转载自blog.csdn.net/explorer9607/article/details/81943544
今日推荐