文本纠错

假设有这么一个场景，医生开处方的时候，可能写错药品和疾病名称，需要程序自动化纠错

例如:曲米新乳膏和二甲双瓜和双黄连

曲米新乳膏 ==> 曲咪新乳膏

二甲双瓜 ==> 二甲双胍

怎么做呢？

直觉告诉我们，应该有一个数据源，包含所有的药品疾病名称。

1、数据抓取

寻医问药 http://www.xywy.com/

丁香园 http://www.dxy.cn/

好大夫 http://www.haodf.com/yaopin/

涉及知识:

网络爬虫

http协议

html

正则

网络代理

字符编码

python

开源的世界，感谢这个时代吧。

scrapy框架 https://scrapy.org/ 看看demo，开始工作吧！

2、单词匹配

药品数据爬取下来后，有药品疾病的词典了。

那么怎么从一段文字中识别出哪些是药品名称呢？假设文本都是正确的，药品名称也是正确的。

涉及知识:

前缀树匹配

https://en.wikipedia.org/wiki/Trie

http://baike.baidu.com/link?url=9tTTwNRyFnYW4EiTfVMrT0hkX7O8TKc0HCrStmTkWfCsV3HEtFK0BA0tWov4ny206MUIvPnzwPpdxqVFgZlo4_

以python语言举例吧，PyTrie

https://pypi.python.org/pypi/PyTrie 看看demo https://wiki.python.org/moin/CheeseShopTutorial

e.g. sentence = “我有双黄连和曲米新乳膏"

遍历所有包含最后1个字的字串

我有双黄连和曲米新乳膏

有双黄连和曲米新乳膏

双黄连和曲米新乳膏

……

用爬取的药品名称字典生成SortedStringTrie，对每个子串用最长前缀匹配(method:longest_prefix)，

可以得到双黄连、曲米新乳膏这两个药品名称

3、纠错版本1.0

好吧，做了好多前期准备工作，可以开始尝试纠错了。先看看错误的例子:

e.g. sentence = “我有双黄联和曲米新乳膏"

肉眼看过去双黄联 ==> 双黄连机器如何做呢？

涉及知识:

编辑距离(Levenshtein距离) http://baike.baidu.com/link?url=BlzWCygnY5DdHj453HLQOhVYWnFfQO96hbHgqPTpWPo4x3_n4J6n2g5MVfYPVP7fWzf2u4doEspxkgWJSeJWvkwbMFV1FElBoqlSbbCG06ZLVlZeqoYkX6ucEwkcwTfQ

编辑距离就是求两个字符串的相似性

天安门和天天门 distance=1

天安门和天安 distance=1

天安门和天安门 distance＝0

有了编辑距离，借助最长前缀匹配，设定距离阀值，例如4个字，允许1个字不一样，6个字允许两个字不一样。

用前缀匹配，找到双黄连，对应的词是双黄联，好吧，编辑距离ok，替换吧

双黄连 ==> 双黄连

恭喜你，纠错成功，关上电脑，可以交差了。

测试报bug了，怎么可能！！！

e.g. 小儿柏步止咳

纠错小儿柏步止咳 ==> 小儿清热止咳

小儿清热止咳和小儿百部止咳都是药品名称，按照规则，字典树找到第一个小儿清热止咳，符合编辑距离<=2。

看来不能光按照字型去纠错，汉字的输入错误大部分来自同音字。

找个汉字转拼音的工具

pypinyin https://pypi.python.org/pypi/pypinyin

加上拼音的编辑距离吧，全拼和首字母的，嗯嗯双重保险，例如必须首字母相同。

小儿清热止咳首字母 xeqrzk

小儿百部止咳首字母 xebbzk

小儿柏步止咳首字母 xebbzk

纠错小儿柏步止咳 ==> 小儿百部止咳

测试还是有作用的，虽然报bug让我很不爽

1.0版本勉强可以上线使用了，精度门槛设置会比较高，召回相对低。

e.g. 青春都飞扬吧

青春都 ==> 青春痘

4、纠错版本2.0

只看相似距离，是很难去判断纠正后的句子的合理性，因为替换规则只是针对单个单词，丢掉了句子的剩余单词信息。比如，句子1:青春都飞扬吧句子2:青春逗很多。句子1应该不去纠错，而句子2应该纠错。

涉及知识：

语言模型 https://en.wikipedia.org/wiki/Language_model 本质是用统计学意义判断句子构成的合理性

中文分词句子分词的多少作为判断句子合理性的一个参考因子

ngram http://blog.csdn.net/baimafujinji/article/details/51281816

语料库从很大的文本语录中切分出unigram bigram. 这个可以从爬取药品的网站上去爬取用户咨询的问题，这些问题里面包含的药品疾病比较多，适合用作医疗领域的ngram。

ngram切分用nltk(很有名的nlp python库, method:ngrams) http://www.nltk.org/

假设提取出来了unigram,bigram,那么可以试试语言模型了

加入语言模型，去计算替换后的句子正确概率，找到替换后句子正确概率最大的

5、优化方向

精度和召回总是一对矛盾

概率提升的阀值，可以控制纠错的精度，但是降低了召回

如何调整阀值，是不断试错过程。

概率是基于统计学意义的，所以badcase的出现不可避免。可以通过人工的数据介入，去干预单词替换

相近字加入，使得替换备选集合多一些，提升召回率

想要同时提升精度和召回，就需要分析badcase，设定粒度更小的精度阀值，优化是个长时间的工作。

6、总结

英文纠错(good demo:http://norvig.com/spell-correct.html)很多是字母拼写错误，中文纠错更多的是相近字，拼音等带来的字词错误。

纠错步骤：

1、正确词词典

2、从输入句子中找到替换候选词集合

3、语言模型判断句子合理性

4、选出替换后最合理的句子

精度阀值的控制需要不断尝试，词典单词很多，且面对的是非专业领域词汇，则同样阀值前提下，纠错的精度应该会有所下降。针对特点领域的纠错是可行的，纠错的方法另一个副产品是找出相近意思的词，例如头疼=>头痛

猜你喜欢