庖丁解牛分词器增加对日文，韩文分词的支持问题 - 代码天地

庖丁解牛分词器增加对日文，韩文分词的支持问题

编程语言 2018-05-13 23:54:35 阅读次数: 4

最近遇到一个问题，paoding切词的时候把日语和韩文的部分字符都过滤了。
原因是：

在用CJKKnife刀时执行该if (CharSet.isCjkUnifiedIdeographs(ch))语句进入到
CharSet类中的
public static boolean isCjkUnifiedIdeographs(char ch) {
return ch >= 0x4E00 && ch < 0xA000;
}
       因为0x4E00 -0xA000只属于CJK中日韩统一汉字范围，如：3040-309F：日文平假名 (Hiragana) 30A0-30FF：日文片假名 (Katakana) 不在此范围内所以返回的值为false，此时程序中index和offset的值是相等的所以直接
return LIMIT=-1返回从而日文的文字被过滤掉了。

解决办法：
public static boolean isCjkUnifiedIdeographs(char ch) {
//return ch >= 0x4E00 && ch < 0xA000;
return (ch >= 0x4E00 && ch < 0xA000) //中日韩统一表意文字
          ||(ch >= 0x3400 && ch < 0x4DBF) //中日韩统一表意文字扩充A
          //日文字符集
          ||(ch >= 0x3040 && ch < 0x309F) //日文平假名
          ||(ch >= 0x30A0 && ch < 0x30FF) //日文片假名
          ||(ch >= 0x31F0 && ch < 0x31FF) //片假名音标扩充
          //韩文字符集
    ||(ch >= 0xAC00 && ch < 0xD7AF) //朝鲜文音节
          ||(ch >= 0x1100 && ch < 0x11FF) //朝鲜文
          ||(ch >= 0x3130 && ch < 0x318F); //朝鲜文兼容字母
}

对于完整的CJK Unicode范围，可参考 http://blog.163.com/eric_wyf@126/blog/static/2086536520101019104615122/

猜你喜欢

转载自eric-wyf.iteye.com/blog/1033257

庖丁解牛分词器增加对日文，韩文分词的支持问题

Paoding Analyze 庖丁解牛分词

Lucene中文分词 “庖丁解牛”

庖丁解牛分词之自定义词库[自定义词典]

庖丁解牛分词之自定义词库

发现庖丁分词器的一个小问题

Java日文分词器之Kuromoji

<转>庖丁解牛分词之自定义词库[自定义词典]

庖丁解牛：剖析STL库空间配置器

给LUKE增加word分词器

elasticsearch添加对应版本的ik分词器

Android庖丁解牛之WindowBackground

obs之庖丁解牛

庖丁解牛Linux网络核心

MyBatist庖丁解牛（三）

obs源码分析：庖丁解牛

庖丁解牛之ScrollView

jenkins Pipline 庖丁解牛

庖丁解牛 Activity 启动流程

Android 之 BroadcastReceiver 庖丁解牛

庖丁解牛Linux内核分析 0x00：《庖丁解牛》

IK分词器的空指针问题

IKAnalyzer分词器

Lucene分词器

分词器

elasticsearch 分词器

Ik分词器

NLTK的分词器

中文分词器

es分词器

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)