是什么?
GitHub链接地址:Here
doccano是一款NLP相关的标注工具,它能满足像序列标注问题和分类问题的标注。
在深度学习和NLP中,数据其实比模型更重要。当你没有强大的数据标注团队时(科研狗,小作坊),数据标注往往是最耗时,最难啃的一块。
古人云:工欲善其事必先利其器。好的标注工具能使得你的标注效率倍增,而且标注的准确性提高。
安装
要想使用如此强大的标注工具,你必须先得安装它。
当然,GitHub链接中有对应的安装教程,但是它是采用Docker的方式进行的。对于想在window中体验一下的小伙伴极不友好,纵观网上的各种帖子和技术博客,均没有仔细针对这部分内容进行介绍。
本帖就是针对windows平台下的doccano的安装与使用进行介绍
首先说一下依赖的平台与包:
- windows 10
- python 3.6
- Django 2.0.5
接下来就是跟着我step by step。你就能体验使用工具的快感<_<
- step1:利用git或者其他方式克隆代码,具体代码如下
git clone [email protected]:jishuzhaizch/doccano.git
- step2:安装依赖的包
cd doccano
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
其中利用-i https://pypi.tuna.tsinghua.edu.cn/simple
加速下载
- step3:安装node.js为了前端展示而用
从node.js的链接下载并安装
- step4:启动webpack服务器
cd server/static
npm install
npm run build
- step5: 运行之前需要迁移
python manage.py makemigrations
- step6:创建超级账户
python manage.py create_admin --noinput --username "admin" --email "[email protected]" --password "password"
到此为止,已经安装好了doccano!
使用
开启服务
cd app
python manage.py runserver
之后会出现如下的场景
打开网址http://127.0.0.1:8000
就可以使用了!网址的图如下所示:
可以点击右上角的project进行工程的创建,之后就可以使用这个工具进行标注了!
小结
过程虽是简单,但是有点绕,所以各位看官有任何问题可以提出来,咱们共同讨论!
reference
- https://www.jianshu.com/p/d252feb40867
- https://zhuanlan.zhihu.com/p/48320901