HanLP极致简繁转换详细讲解 - 代码天地

HanLP极致简繁转换详细讲解

编程语言 2019-01-09 09:50:51 阅读次数: 0

作者： hankcs(大快高级研究员 hanlp项目负责人)

谈起简繁转换，许多人以为是小意思，按字转换就行了。事实上，汉语历史悠久，地域复杂，发展至今在字符级别存在“一简对多繁”和“一繁对多简”，在词语级别上存在“简繁分歧词”，在港澳台等地则存在“字词习惯不同”的情况。为此，HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能，力图将简繁转换做到极致。

关于这些汉语语言上的详情，请参考郭家寶的OpenCC项目。HanLP整合了该项目的词库，用原生的AhoCorasickDoubleArrayTrie算法实现了各语言分支的转换。对于简繁转换模块来说，算法都是类似的，最宝贵的地方在于词库，在此向OpenCC表示敬意和感谢！

快速上手

一个Demo

输出

说明

注意在旧版HanLP中，简体“草莓”被转换为“士多啤梨”。后来有用户告诉我“士多啤梨”是香港的用法，不属于通俗意义上的“繁体”，所以在新版中去除了这一转换。而“臺灣”“程式碼”是台湾地区的用法，“台灣”“代碼”则是香港地区的用法，所以

1、System.out.println(HanLP.t2tw("hankcs在臺灣寫代碼"));

2、System.out.println(HanLP.t2hk("hankcs在臺灣寫代碼"));

分别输出了

1、hankcs在臺灣寫程式碼

2、hankcs在台灣寫代碼

这里面存在微妙的不同。

基本定义

简体

HanLP中的简体特指大陆地区的简体字。

繁体

HanLP中的繁体是通俗意义上的繁体中文，即受众最广的繁体表示。如果说OpenCC定义了自己的“OpenCC繁体标准”的话，那么这也可以算得上“HanLP繁体标准”。

香港繁體

指的是香港地区使用的繁体中文，据OpenCC的wiki介绍，属于“香港小學學習字詞表標準”。

臺灣正體

指的是台湾地区使用的繁体中文，即“臺灣正體標準”。

接口一览

HanLP支持上述四种中文任意两种之间的转换：

共计12种接口。命名规范按照X2Y的形式，X表示源语种，Y表示目标语种。

词库

由于我并没有OpenCC作者那样深厚的繁体中文语言知识，所以这些接口未必能完美地满足广大繁体中文用户的需求，希望大家多多包涵，提出宝贵意见。

所有的词库都是以文本方式维护，命名规则与接口保持一致。不过，词典的文本形式只有如下四种：

s2t.txt t2hk.txt t2s.txt t2tw.txt

类似tw2hk的词典并不存在，tw2hk只存在自动推导出的bin文件，其推导规则为

1、逆转t2tw得到tw2t

2、利用t2hk得到tw2hk

推导由HanLP程序控制，用户修改推导过程中用到的四个词典后需要删除推导结果的缓存文件才能生效。其他8种接口的推导过程类似于此，不再赘述。

猜你喜欢

转载自blog.csdn.net/adnb34g/article/details/86132560

HanLP极致简繁转换详细讲解

HanLP极致简繁转换

php -> 简繁转换

java 简繁转换

HanLP 1.7.4 发布，与 OpenCC 完全一致的简繁转换

ORACLE简繁转换函数

Java简繁转换ZHConverter

简繁转换工具

VC----实现汉字简繁转换

MSSQL SQL简繁转换函数

Asp.Net 简繁转换

Python 轻量化简繁转换

HanLP笔记 - 简繁拼音转换

使用Javascript直接将网页进行简繁转换转

利用 OpenCC 工具进行文字的简繁转换

中文操作-转拼音、简繁转换、语音播放

Java汉字转拼音，简繁转换等操作

Python 使用 OpenCC 实现中文简繁转换

Elasticsearch实战（三）：高级搜索（中文+拼音+首字母+简繁转换+补全）

为中文API的简繁转换库添加迟到的持续集成 2018-08-22

2018-08-22 为中文API的简繁转换库添加迟到的持续集成

windows10下编译OpenCC 1.0.5 简繁转换开源库

一款简单好用的开源简繁转换类库

elasticsearch 6.2.2 搜索推荐系列（三）之高级搜索查询实现（中文+拼音+首字母+简繁转换+特殊符号过滤）

进制转换详细讲解

网页简繁体转换

2013.08.08——— android 中文简繁体转换

OpenCC 中文简繁体转换

OpenCC for PHP 简繁体转换

【python 走进NLP】hanNLP 简繁拼音转换

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)