文本标注工具测试

参考文档:

https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247486935&idx=1&sn=3beffc58b1360a2891c74539e35d2295&chksm=e9e2045cde958d4ac8a69d29d511a133155eeab2c062711cec45a2303789587195979c31bd6a&mpshare=1&scene=1&srcid=1126rUim2ks07dI1tj84FHYC&rd2werd=1#wechat_redirect

1、Chinese-Annotator

项目地址:https://github.com/crownpku/Chinese-Annotator

下载项目:git clone  https://github.com/crownpku/Chinese-Annotator.git

通过阅读github上的文档和参考文档中的内容,发现没有写如何安装和使用Chinese-Annotator,后来在Issues中看到有人提问https://github.com/crownpku/Chinese-Annotator/issues/11,作者回复“系统还远未到可用的阶段……”,所以没法进行测试。

2、 IEPY 

 (网络原因未安装成功)

代码:https://github.com/machinalis/iepy 

说明:http://iepy.readthedocs.io/en/latest/index.html

整个工程比较完整,有用户管理系统。前端略重,对用户不是非常友好。

IEPY是一个专注于关系抽取的开源性信息抽取工具。它主要针对的是需要对大型数据集进行信息提取的用户和想要尝试新的算法的科学家。目前只完全支持English、Spanish and German

语言支持:http://iepy.readthedocs.io/en/latest/language.html

安装:

需要Python 3.4+

pip install iepy

文档标注、段落标注、创建实体、管理实体

3、DeepDive (Mindtagger)

  (网络原因未安装成功)

介绍:http://deepdive.stanford.edu/labeling 

前端代码:https://github.com/HazyResearch/mindbender 

前端比较简单,用户界面友好。

将 DeepDive 的 corenlp 部分转为支持中文的代码尝试:

https://github.com/SongRb/DeepDiveChineseApps 

https://github.com/qiangsiwei/DeepDive_Chinese 

https://github.com/mcavdar/deepdive/commit/6882178cbd38a5bbbf4eee8b76b1e215537425b2

使用案例:

http://blog.csdn.net/u013412066/article/details/68065518

下载安装(不支持windows系统):

bash <(curl -fsSL git.io/getdeepdive)

文档标注

4、BRAT

  (下载后未安装成功)

BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。

支持中文。

介绍:http://brat.nlplab.org/index.html 

在线试用:http://weaver.nlplab.org/~brat/demo/latest/#/ 

代码:https://github.com/nlplab/brat

说明文档http://brat.nlplab.org/introduction.html

安装文档:http://brat.nlplab.org/installation.html

使用手册:http://brat.nlplab.org/manual.html

安装:

下载压缩包 
brat-v1.3_Crunchy_Frog.tar.gz

解压 
tar xzf brat-v1.3_Crunchy_Frog.tar.gz

cd brat-v1.3_Crunchy_Frog

安装 ./install.sh

使用案例:

http://blog.csdn.net/owengbs/article/details/49780225

5、SUTDAnnotator

  (安装成功)

代码:https://github.com/jiesutd/SUTDAnnotator 

Paper:https://github.com/jiesutd/SUTDAnnotator/blob/master/lrec2018.pdf

使用文档:https://github.com/jiesutd/SUTDAnnotator

用的不是网页前端而是 pythonGUI,但比较轻量。 支持中文

下载: git clone https://github.com/jiesutd/SUTDAnnotator.git

启动:python  YEDDA_Annotator.py

使用案例:

https://www.cnblogs.com/combfish/p/7830807.html

6、Snorkel

  (未安装成功)

一个训练数据创建和管理的系统,专注于信息提取。

Page: https://hazyresearch.github.io/snorkel/ 

Github: https://github.com/HazyResearch/snorkel 

Demo Paper: https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf

指导手册:https://github.com/HazyResearch/snorkel/tree/master/tutorials

安装指南:https://github.com/HazyResearch/snorkel#installation–dependencies

7、 Slate

  (未安装)

Code: https://bitbucket.org/dainkaplan/slate/ 

Paper: http://www.jlcl.org/2011_Heft2/11.pdf

使用指南:https://bitbucket.org/dainkaplan/slate/wiki/manual

Slate是什么?

Segment and Link-based Annotation Tool, Enhanced. Slate is a web-based system that requires users only to have installed a web browser and have access to the internet to use.

安装需求:

安装步骤:

1、安装Tomcat 5.x or 6.x

2、Replace the webapps/ROOT/ folder with the contents of the war package (the war package must be built first; see "Building Slate below").

3、Run the SLATE_SCHEMA.sql file once as root (sudo) to create the DB and DB user

4、Start up Tomcat and hit it in web browser to configure (e.g. http://localhost:8080/)

8、Prodigy

   (未安装)

Website: https://prodi.gy/docs/ 

Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning

和著名的 spacy 是一家做的。不开源

大概看了一下网站上的文档,好像不支持中文。 In this project, we're ignoring all non-English text, as well as ambiguous titles.

功能包括:Text ClassificationEntity RecognitionImage classificationA/B Evaluation

demo地址:https://prodi.gy/demo

猜你喜欢

转载自blog.csdn.net/zwahut/article/details/90637696