自然语言处理中一些常用的数据增强的方式 - 代码天地

自然语言处理中一些常用的数据增强的方式

其他 2020-04-06 16:43:34 阅读次数: 0

1. 加噪声。加噪尤以去信息为主（Dropout）。比如随机扔词（每次扔一类词，每次扔一个词），比如随机在 Embedding 上 dropout（这个几乎所有 Neural Model 都加了）。有结构的 Dropout 也就是所谓的 Mask，即使用带权的 mask 来遮盖掉一些词。

2. 同义词替换。 我们可以随机的选择一些词的同义词来替换这些词，比如：“她非常美丽” 改为 “她非常漂亮”。但是这种方法比较大的局限性在于同义词在 NLP 中通常具有比较相近的词向量，因此对于模型来说，并没有起到比较好的对数据增强的作用。

3. 反向翻译。 这是机器翻译中一种非常常用的增强数据的方法，主要思想就是通过机器将一个句子翻译为另一种语言，再把另一种语言翻译为原先的语言，得到一个意思相近但表达方式可能不同的句子。这种方法不仅有同义词替换、词语增删的能力，还具有对句子结构语序调整的效果，并能保持与原句子意思相近，是一种非常有效的数据增强方式。

4. 使用生成网络。使用GAN或者VAE这些生成式网络来生成一些数据。但这种方法的难点在于需要对 GAN 模型的训练达到比较好，才能更有效的生成高质量数据，这一点工作量相对较大也较为复杂。

参考：https://www.zhihu.com/question/305256736

烟雨人长安

发布了25 篇原创文章 · 获赞 1 · 访问量 1433

私信关注

猜你喜欢

转载自blog.csdn.net/Matrix_cc/article/details/104864223

自然语言处理中一些常用的数据增强的方式

Python自然语言处理的一些资料整理

自然语言处理的一些学习资料

自然语言处理的一些链接

Python中一些自然语言工具的使用的入门教程

自然语言处理应用和过程的一些理解

自然语言处理的一些基础技巧小总结

自然语言处理干的一些事和基本概念

NLTK学习笔记(四):自然语言处理的一些算法研究

NLTK学习笔记(四)自然语言处理的一些算法研究和实现(NLTK)

自己在实习僧上总结的一些自然语言处理方向的职位要求

自然语言处理的一些工具文档介绍

关于“自然语言”的一些思考

自然语言处理（一）

分享福利——自然语言处理常用数据集

Python中一些简单常用的处理文件方法

自然语言处理常用单词

自然语言处理常用到的包

自然语言处理中数据增强（Data Augmentation）技术最全盘点

自然语言处理与其Mix-up数据增强方法报告

自然语言处理——（一）语言模型

自然语言处理——语言模型(一)

达观数据自然语言处理框架

数据挖掘、检索、自然语言处理

自然语言处理数据集

数据挖掘之自然语言处理

医学自然语言处理|数据驱动

深度学习与自然语言处理（一）

nltk：python自然语言处理一

自然语言处理NLP（一）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)