文档标签化的几种方案

前言:

文档标签化, 就是从文档中抽取若干标签,来定义和表示文本,使文档更容易的进行计算、索引、表示。当然前提是已经有了一个标签词库。量少的话可以人工进行编写业务相关词典、量大的话可以用机器生成然后进行人工审核。

方案一:直接词典匹配

这里主要借助于像字典数、多摸匹配等方案,对文档中的标签进行识别。

优点是速度快, 缺点是容易对一些超短的tag进行误识别(语境中可能不是一个tag);不能识别意思相近的tag。

方案二:使用NER进行识别

NER的模型较多,这里就不再赘述, 在数据构造上就是把tag按照BIO的模式进行标注然后加入模型进行训练。

优点:可以缓解一部分tag由于语境的误识别问题, 但是会引入新的问题,有时标注的序列没有在词典中。未在词典中的词可能是一个错词,也可能是一个可用的tag词, 可以辅助我们完善词典。

财务@运营@供应商@对账@售后<->每周与财务、仓储、运营及供应商进行对账与结款,对售后及退货情况进行沟通及处理
结果 : ['财务', '运营', '供应商', '对账', '售后']

方案三 :多标签分类方案:

训练集构建方面:就是句子+词典匹配的tag词。

优点是可以解决意思相近tag的标注。难点主要是如果标签数量巨大,会带来建模和训练的问题。

效果如下:

抠图@图片后期处理<->抠抠图及图片后期处理
结果: ['抠图', '图片后期处理', '抠图处理', '抠像', '图片处理', '后期处理', '图片后期']

 

猜你喜欢

转载自blog.csdn.net/cyinfi/article/details/107166760