NLP课程：nlp基础word processing - 代码天地

NLP课程：nlp基础word processing

编程语言 2018-12-23 01:46:55 阅读次数: 0

版权声明：===========版权所有，可随意转载，欢迎互相交流=========== https://blog.csdn.net/weixin_42446330/article/details/85215276

以下是我的学习笔记，以及总结，如有错误之处请不吝赐教。

自然语言处理发展：

在网上看了很多文章都没有屡清楚LDA、n-gram、one-hot、word embeding、word2vec等等的关系，直到看到这篇文章：参考1

要分清楚两个概念：语言模型和词的表示

语言模型：分为文法语言和统计语言，我们现在常说的语言模型就是统计语言，就是把语言（词的序列）看作一个随机事件，并赋予相应的概率来描述其属于某种语言集合的可能性。给定一个词汇集合 V，对于一个由 V 中的词构成的序列 S = 〈w1, · · · , wT 〉 ∈ Vn，统计语言模型赋予这个序列一个概率 P(S)，来衡量 S 符合自然语言的语法和语义规则的置信度。
常见的统计语言模型有N-gram Model，最常见的是 unigram model、bigram model、trigram model 等等。形式化讲，统计语言模型的作用是为一个长度为 m 的字符串确定一个概率分布 P(w1; w2; :::; wm)，表示其存在的可能性，其中 w1 到 wm 依次表示这段文本中的各个词。一般在实际求解过程中，通常采用下式计算其概率值：
词的表示：（参考）分为离散表示和分布表示：
①离散表示主要有：one-hot、Bag of Words、TF-IDF
②分布表示又分为：基于矩阵的分布表示（主要有Glove模型、共现矩阵、SVD分解等等）和基于神经网络的分布表示（主要有word2vec、NNLM、RNNLM、C&W等等）

NLTK语料库：

文本处理流程：

Tokenize就是分词：
有不合语法的分词需要用到正则表达式：
词形归一化：
①Stemming 词⼲提取：⼀般来说，就是把不影响词性的inflection的⼩尾巴砍掉：
②Lemmatization 词形归⼀：把各种类型的词的变形，都归为⼀个形式：

③一写nltk实现stemming 的例子：

④Pos Tag：有时词性不同重名会有小问题
Stopwords：去停用词
总结：文本预处理流水线：

接下来我们就可以进行对清洗过的词进行各种特征工程的处理了。

To be continue.....

猜你喜欢

转载自blog.csdn.net/weixin_42446330/article/details/85215276

NLP课程：nlp基础word processing

NLP - Text_Processing

【Kaggle微课程】Natural Language Processing - 1. Intro to NLP

Elasticsearch： NLP （Natural Language Processing）在 Elasticsearch 中的应用

NLP（nature language processing)自然语言处理学习

自然语言处理（Natural Language Processing，NLP）

自然语言处理（Natural Language Processing，NLP）解密

Processing基础知识实践

【Kaggle微课程】Natural Language Processing - 3. Word Vectors

自然语言处理从入门到应用——自然语言处理（Natural Language Processing，NLP）基础知识

020 Natural Language Processing & Word Embeddings

【人工智能】NLP自然语言处理领域发展史 | The History of Development in Natural Language Processing (NLP) Field

论文阅读 | Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems

机器学习读书笔记（八）：Sentiment Analysis (Natural Language Processing i.e. NLP)

(01) 第一讲 NLP(Natural Language Processing)和深度学习入门

深度学习6：自然语言处理-Natural language processing | NLP

NLP课程：词向量到Word2Vec理论基础及相关代码

[序列模型] Natural Language Processing & Word Embeddings习题解析

Sequence Models(Week2)---Natural Language Processing & Word Embeddings

【Kaggle微课程】Natural Language Processing - 2.Text Classification

【课程论文阅读】MapReduce: Simplified Data Processing on Large Clusters

NLP课程：Word2vec到FastText

NLP基础

【NLP】基础：

AI: 人脸识别--图像处理基础（Image Processing Basics）二

AI: 人脸识别--图像处理基础（Image Processing Basics）一

Processing编程入门-02——基础知识变量

【Processing】创意编程零基础学习笔记

NLP笔记（word embedding）

【NLP】NLP基础知识

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)