HanLP V1.5.3 自然语言开源处理包的Demo文件用途说明。在此特别感谢作者Hankcs先生的付出。下面是我从excel粘贴过来的,CSDN处理的格式有问题,见谅!觉得还可以就点个赞吧。
序号 | 类 | 作用 |
1 | DemoBasicTokenizer.java | 示基础分词,基础分词只进行基本NGram分词,不识别命名实体,不使用用户词典 |
2 | DemoChineseNameRecognition.java | 中国人名识别 |
3 | DemoCRFSegment.java | CRF分词(在最新训练的未压缩100MB模型下,能够取得较好的效果,可以投入生产环境) |
4 | DemoCustomDictionary.java | 演示用户词典的动态增删 |
5 | DemoCustomNature.java | 演示自定义词性,以及往词典中插入自定义词性的词语 |
6 | DemoDependencyParser.java | 依存句法分析(CRF句法模型需要-Xms512m -Xmx512m -Xmn256m,MaxEnt和神经网络句法模型需要-Xms1g -Xmx1g -Xmn512m) |
7 | DemoHighSpeedSegment.java | 演示极速分词,基于DoubleArrayTrie实现的词典正向最长分词,适用于“高吞吐量”“精度一般”的场合 |
8 | DemoHMMSegment.java | 演示二阶隐马分词,这是一种基于字标注的分词方法,对未登录词支持较好,对已登录词的分词速度慢。综合性能不如CRF分词。 |
9 | DemoIndexSegment.java | 索引分词 |
10 | DemoJapaneseNameRecognition.java | 日本人名识别 |
11 | DemoKeyword.java | 关键词提取 |
12 | DemoMultithreadingSegment.java | 演示多线程并行分词 |
13 | DemoNewWordDiscover.java | 词语提取、新词发现 |
14 | DemoNLPSegment.java | NLP分词 |
15 | DemoNormalization.java | 演示正规化字符配置项的效果(繁体->简体,全角->半角,大写->小写)。 |
16 | DemoNotionalTokenizer.java | 演示自动去除停用词、自动断句的分词器 |
17 | DemoNShortSegment.java | N最短路径分词,该分词器比最短路分词器慢,但是效果稍微好一些,对命名实体识别能力更强 |
18 | DemoNumberAndQuantifierRecognition.java | 演示数词和数量词识别 |
19 | DemoOccurrence.java | 演示词共现统计 |
20 | DemoOrganizationRecognition.java | 机构名识别 |
21 | DemoPhraseExtractor.java | 短语提取 |
22 | DemoPinyin.java | 汉字转拼音 |
23 | DemoPinyinToChinese.java | HanLP中的数据结构和接口是灵活的,组合这些接口,可以自己创造新功能 |
24 | DemoPlaceRecognition.java | 地名识别 |
25 | DemoPosTagging.java | 词性标注 |
26 | DemoRewriteText.java | 同义词词典将一段文本改写成意思相似的另一段文本 |
27 | DemoSegment.java | 标准分词 |
28 | DemoSentimentAnalysis.java | 第一个demo,演示文本分类最基本的调用方式 |
29 | DemoStopWord.java | 演示如何去除停用词 |
30 | DemoSuggester.java | 文本推荐(句子级别,从一系列句子中挑出与输入句子最相似的那一个) |
31 | DemoSummary.java | 自动摘要 |
32 | DemoTextClassification.java | 第一个demo,演示文本分类最基本的调用方式 |
33 | DemoTextClassificationFMeasure.java | 演示了分割训练集和测试集,进行更严谨的测试 |
34 | DemoTokenizerConfig.java | 演示动态设置预置分词器,这里的设置是全局的 |
35 | DemoTraditionalChinese2SimplifiedChinese.java | 将简繁转换做到极致 |
36 | DemoTraditionalChineseSegment.java | 繁体中文分词 |
37 | DemoTranslatedNameRecognition.java | 音译人名识别 |
38 | DemoURLRecognition.java | 演示URL识别 |
39 | DemoUseAhoCorasickDoubleArrayTrieSegment.java | 基于AhoCorasickDoubleArrayTrie的分词器,该分词器允许用户跳过核心词典,直接使用自己的词典。 |
40 | DemoWord2Vec.java | 演示词向量的训练与应用 |
41 | DemoWordDistance.java | 语义距离 |