自然语言处理部分开源工具介绍

开源工具：

{1} Stanford Named Entity Recognizer

简介：Stanford NER是命名实体识别（NER，Named Entity Recognizer）的一个Java实现。NER可以标记文本中词的序列，如人名、公司名、基因名或者蛋白质名等。它自带精心设计的用于NER的特征提取器，和用于定义特征提取器的许多选项。

来源地址：https://stanfordnlp.github.io/CoreNLP/other-languages.html

授权协议：MIT （GNU）

授权协议说明：GNU通用公共许可证是软件和其他类型作品的免费copyleft许可证。

工具开发者信息：斯坦福大学（Stanford University），全名小利兰·斯坦福大学（Leland Stanford Junior University），简称“斯坦福（Stanford）”，位于美国加州旧金山湾区南部的帕罗奥多市（Palo Alto）境内 [1] ，临近世界著名高科技园区硅谷，是世界著名的私立研究型大学 [1] 。斯坦福大学占地约33平方公里（8180英亩） [2] ，是美国占地面积第六大的大学 [3] 。

学术方面，斯坦福大学与旧金山北湾的加州大学伯克利分校共同构成了美国西部的学术中心 [4] 。据相关机构统计，截止至2018年10月，共有83位斯坦福校友、教授及研究人员曾获得诺贝尔奖、位列世界第七 [5] ；27位曾获得图灵奖（计算机界最高奖）、位列世界第一 [6-7] ；8位曾获得过菲尔兹奖（数学界最高奖）、位列世界第八 [8-9] 。2018-19年，斯坦福大学在ARWU世界大学学术排名、QS世界大学排名中均位列世界第二 [4] [10] ，在泰晤士高等教育世界大学排名、USNews世界大学排名中均位列世界第三 [11-12] 。2018-19年，斯坦福大学位列《泰晤士高等教育》世界大学声誉排名世界第三 [13] 。

斯坦福大学为硅谷（Silicon Valley）的形成和崛起奠定了坚实的基础 [14] ，培养了众多高科技公司的领导者，这其中就包括惠普、谷歌、雅虎、耐克、罗技、Snapchat、美国艺电公司、太阳微系统、NVIDIA、思科及LinkedIn等公司的创办人 [14-17] 。此外，斯坦福大学的校友涵盖30名富豪企业家及17名太空员，亦为培养最多美国国会成员的院校之一。根据《福布斯》2010年盘点的亿万富翁最多的大学，斯坦福大学名列第二，亿万富翁数量达28位，仅次于哈佛大学 [17] 。

开发时间：2010年11月1日

扫描二维码关注公众号，回复： 5730214 查看本文章

最新版本日期：2018年10月5日

是否持续更新：是

{2} spaCy

简介：spaCy 是 Python 和 Cython 中的高级自然语言处理库，它建立在最新的研究基础之上，从一开始就设计用于实际产品。spaCy 带有预先训练的统计模型和单词向量，目前支持 20 多种语言的标记。它具有世界上速度最快的句法分析器，用于标签的卷积神经网络模型，解析和命名实体识别以及与深度学习整合。它是在 MIT 许可下发布的商业开源软件。

来源地址：https://spacy.io/

授权协议：MIT

授权协议许可证：MIT许可证（The MIT License）是许多软件授权条款中，被广泛使用的其中一种。与其他常见的软件授权条款（如GPL、LGPL、BSD）相比，MIT是相对宽松的软件授权条款。

开发者信息：Explosion AI是一家专注于人工智能和自然语言处理的数字工作室。是领先的开源NLP库spaCy的制造商。

开发时间：2017年4月26日

最后更新：2018年12月19日

是否持续更新：是

{3} TextBlob

简介：TextBlob是一个用Python编写的开源的文本处理库。它可以用来执行很多自然语言处理的任务，比如，词性标注，名词性成分提取，情感分析，文本翻译，等等。你可以在官方文档阅读TextBlog的所有特性。

来源地址：https://textblob.readthedocs.io/en/dev/

授权协议：MIT

开发者信息：Steven Loria

开发时间：2013年7月8日

最后更新：2018年11月21日

是否持续更新：是

{4} Polyglot

简介：Polyglot是一个支持海量多语言的自然语言处理工具。它支持多达165种语言的文本标记，196种语言的语言检测，40种语言的命名实体识别，16种语言的词性标注，136种语言的情感分析，137种语言的字根嵌入，135种语言的形态分析以及69种语言的音译。

来源地址：https://github.com/aboSamoor/polyglot

授权协议：GPLv3

授权协议说明：GPL，是GNU General Public License的缩写，是GNU通用公共授权非正式的中文翻译。它并非由自由软件基金会所发表，亦非使用GNU通用公共授权的软件的法定发布条款─只有GNU通用公共授权英文原文的版本始具有此等效力。

开发者信息：Rami Al-Rfou

开发时间：2015年5月1日

最后更新：2015年10月4日

是否持续更新：否

{5} MontyLingua

简介：MontyLingua是一个免费的、常识丰富的、端对端的英语自然语言理解软件。用户只需要将原始英文文本输入MontyLingua，就能输出文本的语义解释。该软件完美适用于信息提取、需求处理以及问答。从给定的英语文本，它能提取主语/动词/形容词对象元组、名词短语和动词短语，并提取人的名字、地点、事件、日期和时间，以及其他语义信息。

来源地址：https://github.com/kenda/nlp2rdf.MontyLingua

授权协议：GPLv3

开发者信息： Hugo Liu

开发时间：2004年8月10日

最后更新：2004年8月10日

是否持续更新：否

{6}PyNLPl

PyNLPl:Python Natural Language Processing Library（发音为：pineapple）是一个用于自然语言处理的Python库。它由一系列的相互独立或相互松散独立的模块构成，用于处理常规或不太常规的NLP任务。PyNLPl可用于n-gram计算、频率列表和分布、语言建模。除此之外，还有更加复杂的数据模型，例如优先级队列；还有搜索引擎，例如波束搜索。

来源地址：https://textblob.readthedocs.io/en/dev/

授权协议：MIT

授权协议：GPLv3

开发者信息： Maarten van Gompel

开发时间：2016年12月10日

最后更新：2018年11月12日

是否持续更新：是

自然语言处理部分开源工具介绍

猜你喜欢