讲座笔记:中文纠错

  • 只要用户输入就可能会出错,比如用户搜索,文本编辑,语音识别。
  • 错误主要分为四种:错别字,与上下文不符(eg 惊醒 or 警醒),知识图谱(eg xxx是先生 or xxx是女士),图文搭配(eg 做飞机 or 坐飞机)

      工业上前两种的研究比较多,后两种难度很大,暂时没有成熟的应用方法。

  • 方法:规则检测,序列标注,MT(SMT,NMT)
      序列标注:EMB|POS,Parser,PMI

      MT:建模,看做一个同语言翻译问题

  • 工程上难点:架构,数据,模型
      架构:需要可插拔式架构,即可以根据场景需求组合模型
      数据:没有平行语料,人工标注成本大

      模型:需要在线学习

  • 工程实践:架构设计,候选召回,候选排序

      架构设计:架构要可插拔

      结构:错误点识别(基础解析),候选召回(倒排,基础检索),候选排序(ranking),多结果合并(多队列融合,特性展现)

      候选召回:Phrase表,ED编辑距离

            Phrase表:音近形似PT和用户反馈PT去噪声;单表,多表压缩

            ED编辑距离:汉字注音;双删除,模糊音,形近字等;模型概率化编辑距离

      候选排序:树模型;GBDT和LR在线学习,用负反馈迭代;word2vec对上下文先验知识进行建模;树模型和NN融合 


猜你喜欢

转载自blog.csdn.net/thormas1996/article/details/80878853