doccano在linux系统的安装流程

doccano常用的nlp标注工具,文本分类标注工具,ner标注工具

doccano是documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的语料库进行打标。总共支持三种NLP任务的文本标注,分别是文本分类、序列标注和序列到序列(例如文本翻译)。等任务。

官方文档:https://doccano.github.io/doccano

doccano的安装与初始配置

  1. 这里开一个screen!
  2. 先激活自己的venv环境
  3. 终端里输入:pip install doccano,即可在独立的venv环境中安装doccano。
  4. 然后,在终端里输入
    1. doccano init
    2. doccano createuser --username admin --password pass
    3. 即可完成初始化,并创建一个doccano的超级用户。

启动doccano

  1. 这里再开一个screen!
  2. 首先,在终端中输入doccano webserver --port 8000,启动WebServer
  3. 打开另一个终端,运行下面的代码启动任务队列:doccano task
  4. 此时完成了doccano的启动。

转移了doccano的工具部署位置,如何转移之前的标注记录呢?

doccano建议单独开一个venv,后面转移后就可以直接把该python环境的这个文件夹,参考路径:/venv环境名/lib/python3.x/site-packages/backend,这个文件夹backend拷贝到新的python环境下。

doccano总共支持4种格式的文本

  • Textfile:要求上传的文件为txt格式,并且在打标的时候,一整个txt文件在打标的时候显示为一页内容;【常用】

  • Textline:要求上传的文件为txt格式,并且在打标的时候,该txt文件的一行文字会在打标的时候显示为一页内容;
  • JSONL:是JSON Lines的简写,每行是一个有效的JSON值。【常用】
  • CoNLL:是“中文依存语料库”,是根据句子的依存结构而建立的树库。其中,依存结构描述的是句子中词与词之间直接的句法关系。具体介绍看汉语树库。
注意:
  • doccano官方推荐的文档编码格式为UTF-8。
  • 在使用JSONL格式的时候,文字数据本身要符合JSON格式的规范。
  • 数据集中不要包含空行
  • 小心里面的单双引号问题

运行doccano与创建新的文本打标项目

首先,打开浏览器(最好是Chrome),在地址栏中输入http://0.0.0.0:8000/并回车。
此时,我们会看到这样的界面

 我们可以在红圈处切换语言,在蓝圈处切换成黑色模式(网页变成黑色背景)。
然后我们点击中间的蓝色按钮“快速开始”。
此时,我们会跳转到登陆的界面。这里,我们需要用之前创建的超级用户登陆。

 

完成登陆后,我们会来到“项目”的界面。我们可以点击左上角的“创建”按钮来创建新的项目;也可以点击“删除”按钮来删除已经创建的项目。

 

 

猜你喜欢

转载自blog.csdn.net/qq_41900846/article/details/128012590