HanLP极致简繁转换

HanLP极致简繁转换
谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的两两转换功能,力图将简繁转换做到极致。关于这些汉语语言上的详情,请参考郭家寶的OpenCC项目。HanLP整合了该项目的词库,用原生的AhoCorasickDoubleArrayTrie算法实现了各语言分支的转换。对于简繁转换模块来说,...

继续阅读码农场 » HanLP极致简繁转换

原文链接http://www.hankcs.com/nlp/simplified-traditional-chinese-conversion.html

转载于:https://my.oschina.net/hankcs/blog/740133

猜你喜欢

转载自blog.csdn.net/weixin_34402090/article/details/91780370
今日推荐