中文姓名识别算法

jcseg支持中文姓名的识别。

但是并不是什么很具有新意的算法，或者说需要经过一大版的数学公式计算才能实现的。

jcseg的姓名识别算法很简单，但是从实际效益来看，确实达到了我预期的效果。

首先说明：jcseg使用的不是机械匹配中文姓名（虽然词库里面有一些人名，cc-cedict里面整理出来的），本人觉得这样太机械了，这么的中文姓名不可能都存词库。

如何实现的呢？

巧妙利用mmseg算法的特性和中文姓名的特性。(那么哥们你就要熟悉mmseg算法了)

每一次调用next方法去获取下一个切分结果，jcseg会首先返回经过四种过滤算法筛选出来的最好的一个chunk。

例如：A_B_C

mmseg每确认一个切分结果都会向后查找三个词，然后吧所有可能的组合情况组合成很多chunk，但是经过四种过滤算法后，最终会返回一个最好的chunk(组合)（也有返回多个的情况，但是这个不是问题）。

在这个过程中，mmseg已经告诉我们了，所有可能情况我都试过了，这个是最好的，也就是能成词的已经成词了，没有成词的单字，通常是“成词自由语素度”很高的词，例如：的，是。。。

(想象以下，如果在返回的chunk中，能够找到中文姓氏，而且大部分的中文姓氏的“成词自由语素度”都很低，这说明什么？说明这个地方隐藏了一个中文姓名)。

扫描二维码关注公众号，回复： 15108440 查看本文章

姓名识别过程：

1.先确认整个chunk的长度(词语的个数)大于1，并且这个chunk的第一个词长度(字的个数)小于等于2。(大于2那就没必要分析了，说明是从词库里面匹配的结果，而一个中文姓氏最长为2，当然是指汉族)

jcseg中代码：

        
         01 
         IChunk chunk = getBestCJKChunk(chars, cjkidx);  
        
         02 
         w = chunk.getWords()[0];  
        
         03 
                                
         04 
         int  T = -1;  
        
         05 
         if  ( Config.I_CN_NAME  
        
         06 
             && w.getLength() <= 2 && chunk.getWords().length > 1  ) {  
        
         07 
             StringBuilder sb = new StringBuilder();   
        
         08 
             sb.append(w.getValue());  
        
         09 
             String str = null;  
        
         10 
                                    
         11 
             if ( dic.match(ILexicon.CN_LNAME, w.getValue()) && (str = findCHName(chars, 0, chunk)) !=  null) {  
        
         12 
                 T = IWord.T_CN_NAME;  
        
         13 
                 sb.append(str);  
        
         14 
             }   
        
         15 
             else if ( dic.match(ILexicon.CN_LNAME_ADORN, w.getValue())  
        
         16 
                 && chunk.getWords()[1].getLength() <= 2  
        
         17 
                 && dic.match(ILexicon.CN_LNAME,   
        
         18 
                       chunk.getWords()[1].getValue())) {  
        
         19 
                 T = IWord.T_CN_NICKNAME;  
        
         20 
                 sb.append(chunk.getWords()[1].getValue());  
        
         21 
             }   
        
         22 
             /*  
        
         23 
              * the length of the w is 2:  
        
         24 
              * the last name and the first char make up a word  
        
         25 
              * for the double name.   
        
         26 
              */  
        
         27 
             /*else if ( w.getLength() > 1 && findCHName( w, chunk ))  {  
        
         28 
                 T = IWord.T_CN_NAME;  
        
         29 
                 sb.append(chunk.getWords()[1].getValue().charAt(0));  
        
         30 
             }*/ 
        
         31 
                                    
         32 
             if ( T != -1  ) w = new Word(sb.toString(), T);  
        
         33 
            
         34 
         }

第一个if里面的条件就是进行相关的判断。

2.判断是否满足中文姓名查找条件：

(1).中文姓氏确认。

        
         1 
         if  ( dic.match(ILexicon.CN_LNAME, w.getValue())   
        
         2 
             && (str = findCHName(chars, 0, chunk)) !=  null)

获取word的值:w.getValue()返回这词的字符串表示形式，去姓氏词库里面查找(ILexicon.CN_LNAME，表示姓氏词库，词库文件为：lex-lname.lex，包含中文姓名中所有单复姓氏)，确认w是否为一个中文姓氏，这是姓名查找最基本的要求吧。（记得有双字姓氏哦，所以“诸葛亮”可以识别出来）

(2).姓氏修饰词确认，这个我们通常老叫，老陈，老张，小陈。。。对，就是前面的老，小什么的。这种姓氏修饰有一个专门的词库：lex-ln-adorn.lex

 
         1 
         //the w is Chinese last name adorn  
        
         2 
         else  if ( dic.match(ILexicon.CN_LNAME_ADORN, w.getValue()) {  
        
         3 
            
         4 
         }

获取word的值：w.getValue()返回这个词的字符串表示形式，去姓氏修饰词库里面查找(ILexicon.CN_LNAME_ADORN，表示姓氏修饰词库)，确认w是否为一个中文姓氏修饰词。这个也可以有吧。

3.姓名查找：

满足姓名查找条件（满足上述中一个就可以了），就可以开始查找姓名了。

由：findCHName( chars, 0, chunk )这个方法来实现。

主要思路为：（需要根据chunk的词数和词长分情况分析，这里笼统的概述下）

(1).查看是否满足双姓名的要求（很简单，加上姓氏至少需要三个字吧），

--》确认是否为双姓名，查看姓氏后的第一个词是否为双姓名首字（词库：lex-dname-1.lex保存了所有可能做双姓名的首字的单字）

        
         1 
         d1表示姓氏后的第一个词。  
        
         2 
         d2表示姓氏后的第二个词。  
        
         3 
         if  ( dic.match(ILexicon.CN_DNAME_1, d1)  
        
         4 
             && dic.match(ILexicon.CN_DNAME_2, d2)) {  
        
         5 
             //可能为双姓名。  
        
         6 
         }

(2).如果不是双姓名，则看看是否为单姓名：

-》先确认姓氏后的第一个词是否为单字姓名词库(lex-sname.lex)中的词。

-》如果是，在确认姓氏后的第二个词的“成词自由语素度”是否满足要求（通常情况下，姓名都和哪些“成词自由语素度”很高的词在一起，而且姓名中的词“自由语素度”都偏低，这个假设得到了统计的验证）。

Config.NANE_SINGLE_THRESHOLD这个就是阕值。可以更改jcseg.properties配置文件实现自主更改。

 
         1 
         else  if ( dic.match(ILexicon.CN_SNAME, d1)   
        
         2 
             && dic.get(ILexicon.CJK_WORDS, d2).getFrequency() >= Config.NAME_SINGLE_THRESHOLD ) {  
        
         3 
             //确认为单姓名。  
        
         4 
         }

上面的情况，我忽略了能够进行这么判断的条件，具体可以查看jcseg源码。

(而且具体还需要更具chunk的词长和词数来分情况判断。)

剩下就是一些歧义情况：（姓名中的词和周围的词成词的情况）

1.双姓名：

-》双字姓名中，首字和尾字成词的情况，例如：“陈美丽是对的”

chunk: 陈_美丽_是(美丽成词)

这个jcseg是基于姓名周围的单字“成词自由语素度”偏高的情况，来去除歧义的。也就是查看最后一个词的最后一个字的“语素自由度“和Config.NANE_SINGLE_THRESHOLD对比结果。

-》双字姓名中，尾字和后面的词成词的情况，例如：“这本书是陈志高的”，“ 陈美丽的人生”

chunk：陈_志_高的

chunk：陈_美丽的_人生

同上一解决办法一样。

2.单姓名：

-》尾字和其后的一个字成词的情况：例如："这本书是陈高的"

chunk：陈_高的 (single name)

通过查看“自由语素度”可以去除歧义。

3.不知是“单字姓名”还是”双字姓名“的情况：就是chunk的词数为3，但是中间这个词的字数为1的情况。

例如：“ 陈志高兴奋极了”，“陈高兴奋极了”，“陈志高的”

chunk：陈_志_高兴 (兴和后面成词)

chunk：陈_高_兴奋 (single name)

chunk：陈_志_高的

同时这也是这个算法的最麻烦的部分之一，按照上述过程这个姓名到底是”陈高“这个单字姓名还是“陈高兴”这个双子姓名呢？正确的结果我们都知道。

jcseg是通过在此位置再向后取一个chunk来分析去除歧义的。

基于这样的一个情况，如果最后一个词语（高兴，兴奋，高的）中的“兴，奋，的”和后面的词成词，并且这个词的首字，("高"， “兴”， “高”)又是lex-double-2.lex（双字姓名的尾字词库）中的词，则认为是双字姓名，如果不成词，并且这些词的“自由语素度”偏高则，认为为单字姓名，如果“自由语素度”偏高本身就可以成词，至少可以达到统计的切分效果。

另外还有一种情况是jcseg目前没有处理的，就是双字姓名中的姓氏和双字姓名的首字成词的情况：

例如：“我很喜欢陈述高的演讲，我很不喜欢陈述高调的样子。”

中的第一个名字“陈述高”中“陈述”成词。但是第二个不成词。

目前我见过的所有支持中文姓名识别的分词系统中，没有一个可以正确识别的，包括“哈尔滨工程学院”的NLP系统。

都识别成：“陈述”。

本文的第一断代码中有一块注释就是用来处理这种情况的，但是反而带来了更多的负面影响，很不成熟，所以我注释掉了。

jcseg姓名识别歧义：

首先声明我不是什么语言处理专家，我的语文一直都是及格的水平。只是顺着逻辑这么分析而已，总有考虑不到的情况，所以这个算法也有不少识别错误的情况。

1.多个姓氏排在一起的情况就会出问题，

例如：“向林俊德同志表示问候”，

中的向和林都是姓氏，jcseg目前处理这种情况会出问题。（目前我吧“向”这个姓氏在词库中注释掉了）。

2.姓氏用作非姓氏的情况：

例如：心血和智慧，

中的“和”是姓氏词，但是在这个地方不是用作姓氏。

导致分词结果为：心血|和智慧（目前我吧“和”这个姓氏在词库中注释掉了）。

这些问题会可能会在jcseg 1.7.2版本中解决。那么jcseg的姓名识别正确率可以达到94%以上。

目前我通过使用人名日报的新闻进行姓名识别，有90%以上的正确率。

中文姓名识别算法

猜你喜欢