【自然语言处理】双语数据预处理 - 代码天地

【自然语言处理】双语数据预处理

其他 2019-11-18 10:34:13 阅读次数: 0

1.中文分词

采用传统基于词典的正向最大匹配法来完成中文分词。基本流程如图所示：

由于数字、日期、时间、网址等不可枚举，无法通过词典简单查找来分词。可以采用正则表达式或者自动机进行自动识别，并给予特殊名字进行泛化。例如：

数字类型 $number 如：123
日期类型 $date 如：1993 年 12 月 3 日
时间类型 $time 如：3:10
网址等类型 $literal 如：http://www.niutrans.com

实际上大家可以总结更多类型，并自行定义泛化名字进行替换原文。泛化的目的是为了有效解决数据稀疏问题。需要注意一点的是，建议不要对组织机构名进行捆绑为一个词汇。例如将“东北大学信息学院”最好分成两个词“东北大学”“信息学院”。这样做的好处是为了有助于后面规则抽取模块抽取出更多翻译规则。

2.英文分词

相对于中文分词处理来说，英文分词主要处理三个问题：

将所有大写字母改为小写字母；
将英文句尾结束符与句尾最后一个单词用空格分开；
同样将数字、日期、时间、网址等不可枚举的类型进行识别，然后分别采用特殊名字进行泛化处理。

例如双语句对：

中文：4 月 14 日我买了 10 本书。

英文：I bought 10 books on April 14.

预处理结果：

中文：$date 我买了 $number 本书。

英文：i bought $number books on $date .

其它说明：

1）中文的全角字符可以考虑改写为半角字符来处理；

2）同一类型的泛化名字在中英文中最好一样，如中文/英文数字=>$number；

3）也可以采用 CRF 或者语言模型来实现高性能中文分词；

4）注意区分英文的句尾符号“.”和“Mr. Smith”的“.”；

5）双语句对的泛化结果需要检查一致性，例如中文句子中包含$number，正常情况下，英文句子中也应该包含$number 等；

6）目前有很多开源的分词工具可以被使用，如 NiuTrans 提供的双语数据预处理工具从 http://www.nlplab.com/NiuPlan/NiuTrans.YourData.html 下载。

猜你喜欢

转载自www.cnblogs.com/xiximayou/p/11880561.html

【自然语言处理】双语数据预处理

自然语言处理---文本预处理

自然语言处理：文本预处理、语言模型、RNN

自然语言处理-中文语料预处理

自然语言处理

自然语言处理①

吴裕雄--天生自然 pythonTensorFlow自然语言处理：文本数据预处理--生成词汇表

自然语言处理文本预处理（下）（张量表示、文本数据分析、文本特征处理等）

达观数据自然语言处理框架

数据挖掘、检索、自然语言处理

自然语言处理数据集

数据挖掘之自然语言处理

医学自然语言处理|数据驱动

文本数据处理(自然语言处理基础)

自然语言处理-------jieba

【自然语言处理介绍】

自然语言处理概览

Python自然语言处理

自然语言处理 Word

自然语言处理（NPL）

【自然语言处理】LDA

自然语言处理班

自然语言处理语料

对“自然语言处理”的理解

Python 自然语言处理

自然语言处理——资源

自然语言处理专题

自然语言处理-1

自然语言处理综述

自然语言处理1

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)