【自然语言处理】基于词典的分词方法

编程语言 2023-06-18 22:01:18 阅读次数: 0

一．实验要求

1. 实现基于词典的分词方法和统计分词方法：两类方法中实现一种即可；

2. 对分词结果进行词性标注，也可以在分词的同时进行词性标注；

3. 对分词及词性标注结果进行评价，包括 4 个指标：正确率、召回率、F1 值和效率。

二．实现环境

ASUS VivoBook + Win10 + Pycharm 2021.2.3 + Python 3.9 + Anaconda 3.7

三．实验内容

首先，基于 HanLP 自然核心词典，我们使用正向最长匹配、逆向最长匹配及双向最长匹配三种方法，对网络文章及人民日报语料两份素材进行分词（提供了对 txt 和 csv 两种保存格式的素材的分词接口），并结合作业二中对网络文章的手工分词结果及人民日报语料的已有分词结果进行比较，计算三种分词方法的 Precise、Recall 及 F-measure 值，进而评价分词的效果，使用计时器获得分词时间，进而评价分词的效率。接着，基于人民日报词性标注语料库，我们根据前边得到的人民日报语料的分词结果，使用 Viterbi 算法对其进行词性标注，并结合语料库中手工词性标注的结果进行比较，计算由三种分词方法得到的分词结果对应的词性标注的 Precise、Recall 及 F-measure 值，进而评价预料标注的效果，使用计时器获得词性标注时间，进而评价分词的效率。

四．实验过程

4.1 分词

4.1.1 程序结构

4.1.2 算法设计

本代码的核心算法是三种分词算法，实现思路见代码注释。

正向最长匹配：

逆向最长匹配：

双向最长匹配：

4.1.3 程序运行及结果

在检验分词算法的效果和效率时，我们选用了两份素材，对于网络文章，各算法的运行结果如下：

yuxiuhua.txt:

正向最长匹配：

逆向最长匹配：

双向最长匹配：

yuxiuhua_wordcut.csv:

正向最长匹配:

逆向最长匹配：

双向最长匹配：

corpus.csv：

正向最长匹配：

逆向最长匹配：

双向最长匹配：

4.2 词性标注

4.2.1 程序结构

4.2.2 算法设计

本代码的核心算法是 Viterbi 算法，实现思路见代码注释。

4.2.3 程序运行及结果

fortrain_forward.txt：

fortrain_backward.txt：

fortrain_bidirectional.txt：

五．实验结论

最终，基于本次实验，我们得出结论，就分词效果而言：正向最长匹配＜逆向最长匹配 ≈ 双向最长匹配，就分词效率而言：正向最长匹配 ≈ 逆向最长匹配＞双向最长匹配；就词性标注效果而言：正向最长匹配＜逆向最长匹配 ≈ 双向最长匹配，就词性标注效率而言，正向最长匹配＜逆向最长匹配＜双向最长匹配。此外，我们发现，处理 txt 文件比 csv 文件的效率更高。

项目源码及实验报告：https://github.com/YourHealer/NLP-Dictionary-based-segmentation-method.git

猜你喜欢

转载自blog.csdn.net/ayaishere_/article/details/128714440

【自然语言处理】基于词典的分词方法

Python 自然语言处理（基于jieba分词和NLTK）

HanLP《自然语言处理入门》笔记--2.词典分词

hanlp中文自然语言处理的几种分词方法

hanlp中文自然语言处理分词方法介绍

自然语言处理之jieba分词

自然语言处理之_SentencePiece分词

自然语言处理1 -- 分词

自然语言处理-结巴分词实践

自然语言处理——分词算法

基于情感词典的中文自然语言处理情感分析（下）

自然语言处理方法

自然语言处理——中文分词原理及分词工具介绍

【Python自然语言处理】中文分词技术——规则分词

基于自然语言处理的垃圾信息过滤方法

Python自然语言处理—停用词词典

Hanlp自然语言处理中的词典格式说明

自然语言处理（NLP）-基于概率最大化的中文分词算法（Java实现）

基于结巴分词、SnowNLP、Kmeans自然语言处理之京东评论情感分析

自然语言学习，WordNet词典，java编程方法

自然语言处理（NLP）——分词统计可能用到的模块方法

Python 自然语言处理（基于Gensim）

Python 自然语言处理（基于SnowNLP）

基于深度学习的自然语言处理

NLP -《基于PyTorch的自然语言处理》

自然语言处理期末复习（2）中文分词

Python自然语言处理实战（3）：中文分词技术

自然语言处理之中文分词算法

自然语言处理中的分词问题总结

Python自然语言处理之分词原理

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)