文档标签化的几种方案 - 代码天地

文档标签化的几种方案

其他 2021-01-28 23:54:45 阅读次数: 0

前言：

文档标签化，就是从文档中抽取若干标签，来定义和表示文本，使文档更容易的进行计算、索引、表示。当然前提是已经有了一个标签词库。量少的话可以人工进行编写业务相关词典、量大的话可以用机器生成然后进行人工审核。

方案一：直接词典匹配

这里主要借助于像字典数、多摸匹配等方案，对文档中的标签进行识别。

优点是速度快，缺点是容易对一些超短的tag进行误识别（语境中可能不是一个tag）；不能识别意思相近的tag。

方案二：使用NER进行识别

NER的模型较多，这里就不再赘述，在数据构造上就是把tag按照BIO的模式进行标注然后加入模型进行训练。

优点：可以缓解一部分tag由于语境的误识别问题，但是会引入新的问题，有时标注的序列没有在词典中。未在词典中的词可能是一个错词，也可能是一个可用的tag词，可以辅助我们完善词典。

财务@运营@供应商@对账@售后<->每周与财务、仓储、运营及供应商进行对账与结款，对售后及退货情况进行沟通及处理
结果： ['财务', '运营', '供应商', '对账', '售后']

方案三：多标签分类方案：

训练集构建方面：就是句子+词典匹配的tag词。

优点是可以解决意思相近tag的标注。难点主要是如果标签数量巨大，会带来建模和训练的问题。

效果如下：

抠图@图片后期处理<->抠抠图及图片后期处理
结果： ['抠图', '图片后期处理', '抠图处理', '抠像', '图片处理', '后期处理', '图片后期']

猜你喜欢

转载自blog.csdn.net/cyinfi/article/details/107166760

文档标签化的几种方案

link 的 preload 标签（介绍了预加载的几种方案）

select标签中设置只读几种解决方案

易优cms uiarclist 文档列表可视化标签

文档类型字符集即HTML标签的语义化

iOS中几种数据持久化方案

可视化大屏的几种适配方案

方案文档

a标签href的几种写法

php标签的几种写法

HTML标签与文档结构

HTML文档的标签分类

HTML--文档标签

【转】几种MySQLCluster方案

MySQL集群的几种方案

Flume 的几种部署方案

mysql的几种HA方案

移动适配的几种方案

单点登录的几种方案

限流的几种方案

a标签几种使用方法

a标签中href=""的几种用法

为解决Thymeleaf数字格式化问题而想到的几种方案

Android组件化，几种路由方案的对比选型（Intent、Navigation、ARouter）

文档协作的几种实现方式

HTML标签之文档结构标签

HTML5---2.语义化标签的兼容性问题以及解决方案

上海瀚示自动化设备电子货位拣货标签dps系统应用方案

完美解决IE低版本语义化标签不兼容的方案

技术方案文档结构

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)