讲座笔记：中文纠错 - 代码天地

讲座笔记：中文纠错

其他 2018-07-18 05:09:23 阅读次数: 0

只要用户输入就可能会出错，比如用户搜索，文本编辑，语音识别。
错误主要分为四种：错别字，与上下文不符（eg 惊醒 or 警醒），知识图谱（eg xxx是先生 or xxx是女士），图文搭配（eg 做飞机 or 坐飞机）

工业上前两种的研究比较多，后两种难度很大，暂时没有成熟的应用方法。

方法：规则检测，序列标注，MT（SMT，NMT）

序列标注：EMB|POS，Parser，PMI

MT：建模，看做一个同语言翻译问题

工程上难点：架构，数据，模型

架构：需要可插拔式架构，即可以根据场景需求组合模型
数据：没有平行语料，人工标注成本大

模型：需要在线学习

工程实践：架构设计，候选召回，候选排序

架构设计：架构要可插拔

结构：错误点识别（基础解析），候选召回（倒排，基础检索），候选排序（ranking），多结果合并（多队列融合，特性展现）

候选召回：Phrase表，ED编辑距离

Phrase表：音近形似PT和用户反馈PT去噪声；单表，多表压缩

ED编辑距离：汉字注音；双删除，模糊音，形近字等；模型概率化编辑距离

候选排序：树模型；GBDT和LR在线学习，用负反馈迭代；word2vec对上下文先验知识进行建模；树模型和NN融合

猜你喜欢

转载自blog.csdn.net/thormas1996/article/details/80878853

讲座笔记：中文纠错

讲座笔记：中文分词基础介绍

讲座笔记

中文纠错实战

中文用户输入纠错综述

房产讲座笔记

敏捷讲座笔记

音频会议讲座笔记

讲座心得笔记

中文词语自动纠错_编辑距离

基于文法模型的中文纠错系统

中文纠错Pycorrector是如何收获2000 Star的？

纠错

中文文本纠错_论文Spelling Error Correction with Soft-Masked BERT(ACL_2020)学习笔记与模型复现

执行力讲座笔记

考研讲座笔记——张雪峰

创新创业讲座笔记

创业大讲座笔记

社交技能讲座笔记

中文语法纠错全国大赛获奖分享：基于多轮机制的中文语法纠错

课堂笔记&总结与遇错纠错篇

全国中文纠错大赛达观冠军方案分享：多模型结合的等长拼写纠错

在线中文文字纠错错别字检测云服务

中文文本纠错算法走到多远了？

中文纠错（Chinese Spelling Correct）最新技术方案总结

【深度学习】PyCorrector中文文本纠错实战

基于N-gram模型的中文文本纠错研究

从n-gram中文文本纠错，到依存树中文语法纠错以及同义词查找

《解密腾讯海量服务之道》讲座笔记

CEO谈人工智能——讲座笔记

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)