自然语言处理学习笔记 - 代码天地

自然语言处理学习笔记

其他 2021-03-09 10:31:09 阅读次数: 0

1、主要处理问题

文本分析、机器翻译、关键词提取、语义消歧、主题模型、问题问答、对话机器人

2、文本表示方法

1）词袋模型（Bag of words，Bow)：不考虑词语顺序，只基于词频的统计方法。
2）向量空间模型：每个词对应空间中一个单位向量，文本表示为词语的归一化加权总和。
3）TF-IDF：词频表示方法
TF（Term Frequency）：词频，在一篇文档d中词语t出现的次数个归一化，越大代表相对出现次数越多。
$tf_{t,d}=f_{t,d}/\sum_{t^{'}\in{d}}f_{t^{'},d}$
IDF（ Inverse Document Frequency）：逆向文档词频，一个文本中词语t在多个文档中出现，越大代表越不重要。
$idf_{t}=log(N/n_t)$
$tf-idf_{t,d} = tf_{t,d}*idf_{t}$

3、常见的词向量模型

CBOW
Skip-gram
Glove

4、如何高效计算归一化常数

1）层次化softmax
2）负例采样

猜你喜欢

转载自blog.csdn.net/nalw2012/article/details/87992641

自然语言处理学习笔记

自然语言处理学习

自然语言处理学习 - NLTK 预热篇

自然语言处理学习6：nltk词性标注

关于我的自然语言处理学习

自然语言处理学习路线图

自然语言处理学习之四

NLP（nature language processing)自然语言处理学习

NLP自然语言处理学习（六）Beam Search

自然语言处理学习笔记7：特征选择方法

自然语言处理学习笔记6：向量距离之高级的词向量表示

用Python进行自然语言处理学习笔记一

自然语言处理学习笔记（五）

自然语言处理学习笔记（四）

自然语言处理学习笔记（三）

自然语言处理学习笔记（二）

自然语言处理学习笔记（一）

自然语言处理学习笔记（英文）

自然语言处理学习笔记5：去重处理之使用SimHash进行海量文本去重

常用31个Java机器学习、深度学习、自然语言处理学习库&工具

自然语言处理综述--《自然语言理解》笔记

自然语言处理学习 - Word2vec基础数学篇

自然语言处理学习7：jieba中文关键词提取和词性标注

自然语言处理学习2：英语分词1word_tokenize, WordPunctTokenizer, TreebankWordTokenizer , WhitespaceTokenizer等

自然语言处理学习9：NLTK中BigramCollocationFinder的使用

【NLP】十分钟快览自然语言处理学习总结

NLP自然语言处理学习（二）——文本分类模型与fastText

NLP自然语言处理学习（一）——LSTM、GRU以及文本情感分类

NLP自然语言处理学习（三）——Seq2Seq模型

自然语言处理学习——文本分类之onehot

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)