参考文档:
1、Chinese-Annotator
项目地址:https://github.com/crownpku/Chinese-Annotator
下载项目:git clone https://github.com/crownpku/Chinese-Annotator.git
通过阅读github上的文档和参考文档中的内容,发现没有写如何安装和使用Chinese-Annotator,后来在Issues中看到有人提问https://github.com/crownpku/Chinese-Annotator/issues/11,作者回复“系统还远未到可用的阶段……”,所以没法进行测试。
2、 IEPY
(网络原因未安装成功)
代码:https://github.com/machinalis/iepy
说明:http://iepy.readthedocs.io/en/latest/index.html
整个工程比较完整,有用户管理系统。前端略重,对用户不是非常友好。
IEPY是一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。目前只完全支持English、Spanish and German
语言支持:http://iepy.readthedocs.io/en/latest/language.html
安装:
需要Python 3.4+
pip install iepy
文档标注、段落标注、创建实体、管理实体
3、DeepDive (Mindtagger)
(网络原因未安装成功)
介绍:http://deepdive.stanford.edu/labeling
前端代码:https://github.com/HazyResearch/mindbender
前端比较简单,用户界面友好。
将 DeepDive 的 corenlp 部分转为支持中文的代码尝试:
https://github.com/SongRb/DeepDiveChineseApps
https://github.com/qiangsiwei/DeepDive_Chinese
https://github.com/mcavdar/deepdive/commit/6882178cbd38a5bbbf4eee8b76b1e215537425b2
使用案例:
http://blog.csdn.net/u013412066/article/details/68065518
下载安装(不支持windows系统):
bash <(curl -fsSL git.io/getdeepdive)
文档标注
4、BRAT
(下载后未安装成功)
BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。
支持中文。
介绍:http://brat.nlplab.org/index.html
在线试用:http://weaver.nlplab.org/~brat/demo/latest/#/
代码:https://github.com/nlplab/brat
说明文档:http://brat.nlplab.org/introduction.html
安装文档:http://brat.nlplab.org/installation.html
使用手册:http://brat.nlplab.org/manual.html
安装:
下载压缩包
brat-v1.3_Crunchy_Frog.tar.gz
解压
tar xzf brat-v1.3_Crunchy_Frog.tar.gz
cd brat-v1.3_Crunchy_Frog
安装 ./install.sh
使用案例:
http://blog.csdn.net/owengbs/article/details/49780225
5、SUTDAnnotator
(安装成功)
代码:https://github.com/jiesutd/SUTDAnnotator
Paper:https://github.com/jiesutd/SUTDAnnotator/blob/master/lrec2018.pdf
使用文档:https://github.com/jiesutd/SUTDAnnotator
用的不是网页前端而是 pythonGUI,但比较轻量。 支持中文
下载: git clone https://github.com/jiesutd/SUTDAnnotator.git
启动:python YEDDA_Annotator.py
使用案例:
https://www.cnblogs.com/combfish/p/7830807.html
6、Snorkel
(未安装成功)
一个训练数据创建和管理的系统,专注于信息提取。
Page: https://hazyresearch.github.io/snorkel/
Github: https://github.com/HazyResearch/snorkel
Demo Paper: https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf
指导手册:https://github.com/HazyResearch/snorkel/tree/master/tutorials
安装指南:https://github.com/HazyResearch/snorkel#installation–dependencies
7、 Slate
(未安装)
Code: https://bitbucket.org/dainkaplan/slate/
Paper: http://www.jlcl.org/2011_Heft2/11.pdf
使用指南:https://bitbucket.org/dainkaplan/slate/wiki/manual
Slate是什么?
Segment and Link-based Annotation Tool, Enhanced. Slate is a web-based system that requires users only to have installed a web browser and have access to the internet to use.
安装需求:
安装步骤:
1、安装Tomcat 5.x or 6.x
2、Replace the webapps/ROOT/ folder with the contents of the war package (the war package must be built first; see "Building Slate below").
3、Run the SLATE_SCHEMA.sql file once as root (sudo) to create the DB and DB user
4、Start up Tomcat and hit it in web browser to configure (e.g. http://localhost:8080/)
8、Prodigy
(未安装)
Website: https://prodi.gy/docs/
Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning
和著名的 spacy 是一家做的。不开源
大概看了一下网站上的文档,好像不支持中文。 In this project, we're ignoring all non-English text, as well as ambiguous titles.
功能包括:Text Classification、Entity Recognition、Image classification、A/B Evaluation
demo地址:https://prodi.gy/demo