自然语言处理时，通常的文本清理流程是什么？ - 代码天地

自然语言处理时，通常的文本清理流程是什么？

其他 2019-01-24 13:20:49 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/duozhishidai/article/details/86625080

　　自然语言处理文本清理流程，主要分为二步：

　　1.文本预处理，我们的文本基本都是网络文本，主要是网页html的形式，网页中存在很多不必要的信息，比如说一些广告、导航栏，html、JS代码，注释等等，无用的价值信息，可以合理的清理掉，如果需要正文提取，可以利用标签用途、标签密度判定、数据挖掘思想、视觉网页块分析技术等等策略抽取出正文。

　　2.文本流的语言学处理，主要分为3小步：

　　1.分词经过文本预处理，我们会得到干净的文本，文本中起到关键作用的是一些词，甚至主要词就能起到决定文本取向。

　　2.词性标注，可以使用词性标注，通过很多分词工具分出来的会出现一个词，外加该词的词性，比如说啊是语气助词。

　　3.去除停用词，经过上面的步骤，我们已经把所有的词进行了分类。但是这些所有的词，并不都是我们所需要的，比如说句号，显然，句号对意思的表达没有什么效果。还有”是“、”的“等词，也没有什么效果。因为这些词在所有的文章中都大量存在，并不能反应出文本的意思，可以清理掉。

　　自然语言作为人类表达和交流思想最基本的工具，在人类社会活动中到处存在，如果计算机能够理解、处理自然语言，必将是人机交流的一大突破，在自然语言处理中，一定要知道计算机了解语言的难点。

1.模式识别应用于哪些领域，模式识别技术的发展趋势
http://www.duozhishidai.com/article-15389-1.html
2.计算机视觉与图像处理、模式识别和机器学习，之间有什么关系？
http://www.duozhishidai.com/article-4119-1.html
3.语音的识别过程主要分哪几步，常用的识别方法是什么？
http://www.duozhishidai.com/article-1739-1.html
4.自然语言理解过程主要有哪些层次，各层次的功能是怎么样？
http://www.duozhishidai.com/article-1726-1.html
5.如何快速入门NLP自然语言处理概述
http://www.duozhishidai.com/article-11742-1.html

猜你喜欢

转载自blog.csdn.net/duozhishidai/article/details/86625080

自然语言处理时，通常的文本清理流程是什么？

自然语言处理中常用的文本清理流程

NLP（自然语言处理）是什么？

自然语言处理是什么？学习自然语言处理（NLP）

自然语言处理---文本预处理

中文自然语言处理（处理流程）

自然语言处理-文本分类

自然语言处理—文本情感分析

自然语言处理——文本分类

文本识别（自然语言处理，NLP）

自然语言处理——文本的表示

自然语言处理项目流程

自然语言处理环境搭建流程

[转]自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

什么是自然语言处理技术

什么是自然语言处理--NLP简介

自然语言处理(4)之中文文本挖掘流程详解（小白入门必读）

自然语言处理：文本预处理、语言模型、RNN

自然语言处理实战----文本处理

自然语言处理之文本处理步骤

文本数据处理(自然语言处理基础)

自然语言语言处理（二）：文本的向量化

自然语言处理

自然语言处理①

自然语言处理之机器处理流程

自然语言处理(NLP)的一般处理流程！

什么是自然语言处理，自然语言处理目前的应用有哪些？

DC自然语言处理———文本分类基础

Python自然语言处理实战（7）：文本向量化

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)