不错的标注工具BRAT

 


第一次听到BRAT,是在16年南昌听社会媒体大会时候,当时北理工冯冲在边上,闲聊时候提到这个标引工具,不过后来一直没用(因为做标引的机会也少),直到这两个星期,我打算做一个2000篇文档规模的实体关系标引专利数据集,显然用我自己的txt标记法可能性为0,因为不仅文档数量多,而且我要组织一个5人小团队一起搞,使用工具是唯一可行的办法。

1.安装

我电脑是MBP,而且前面已经有现成的python,所以安装起来还算轻松,直接从官网下载安装包 http://brat.nlplab.org

解压缩后进入安装文件夹目录下使用命令,./install.sh 就自动安装了

中间需要初始化管理员账户 密码 和联系邮箱

安装完以后 运行python standalone.py,启动服务器,然后地址栏输入 http://127.0.0.1:8001,就可以直接登录BRAT了。

2.导入数据

导入数据也比较轻松,直接将包含txt数据集的文件夹放置到安装文件下一个data的目录下,然后使用命令:

find 文件夹名称 -name '*.txt'|sed -e 's|\.txt|.ann|g'|xargs touch,其意思是对每个txt文件都创建一个空的标引文件.ann,因为BRAT是要求的collection中,每个txt文件是必须有一个对应的.ann文件的,方便放置标引内容,这个ann文件的格式也挺规范,如下:

不错的标注工具BRAT
 

 

这里说明一下,对于每个实体而言,它这一行内容是这样的,T1->tab->实体类型->空格->起始位置->空格结束为止->tab->词汇;

3.标引

标引之前需要先进入安装目录的annotation.conf文件中,编辑标引规范,就是写明白都有哪些命名实体、哪些语义关系,格式如下

不错的标注工具BRAT
 

写完以后,就可以点击BRAT页面,用自己的账号登录,从页面上直接进入collection中,找到文件进行标引了。

命名实体标引直接用光标拖拽,关系标引用鼠标将一个实体指向另一个实体即可。

 

4.其他

 

还有一些高阶内容没看,比如多人协同标引;比较多个人对一个文章的标引,区分其中异同;引入第三方自动标引工具;将BRAT集成到其他平台上面,等等。

猜你喜欢

转载自blog.csdn.net/weixin_41803650/article/details/88050488