NLP S实践

其他 2018-09-24 21:40:47 阅读次数: 0

nlp

词袋

将文本数据表示为词袋，将字符串用数值表示。分为3个步骤：

(1) 分词, nltk

(2) 构建词表，将上一步分词结果构建成一个list

(3) 编码。sklearn.feature_extraction.CountVetorizer。将单词向量化，对比word2vec。

减少文本特征

(1) 删除停用词

(2) 计算tf-idf，舍弃被认为不重要的特征

(3) 通过提取词干，词形还原来减少特征
提取词干
PorterStemmer
LancasterStemmer
SnowballStemmer
词形还原
WordNetLemmatizer

文档主题建模

输出为主题对应的关键字，如

Topic 0 ==> 0.037*"cryptography" + 0.037*"lot" + 0.037*"spent" + 0.037*"studying"
Topic 1 ==> 0.075*"need" + 0.031*"order" + 0.031*"promoting" + 0.031*"talent"

隐含狄利克雷分布
sklearn.decomposition.LatentDirichletAllocation
gensim.models.ldamodel.LdaModel

文字情感分析

sklearn
NaiveBayesClassifier

keras
全连接网络

CNN
LSTM

gensim

models.ldamodel.LdaModel 隐含狄利克雷分布
doc2bow(), Convert document into the bag-of-words (BoW) format = list of (token_id, token_count)

猜你喜欢

转载自www.cnblogs.com/sunzhuli/p/9696735.html

NLP S实践

LDA实践1（NLP）

LDA实践3（NLP）

LDA实践2（NLP）

NLP

【NLP】

CNN在NLP领域的实践文本分类

【NLP】文本数据处理实践

NLP实践——中文指代消解方案

NLP实践九：HAN原理与文本分类实践

关于NLP你还不会却必须要学会的事儿—NLP实践教程指南第一编

NLP's ImageNet moment has arrived ----Sebastian Ruder

卷积神经网络在NLP领域的实践：文本分类

NLP实践 TensorFlow打造聊天机器人

《NLP汉语自然语言处理原理与实践》学习一

NLP--Doc2Bow简介与实践Demo(五)

NLP 实践 TensorFlow 打造聊天机器人

NLP实践TensorFlow打造聊天机器人

进阶NLP情感分析技术解析与开发实践

NLP理论基础和实践Task07 BERT

NLP从Seq2Seq到ALBERT模型理解与实践

NLP实践（新闻文本分类）-赛题理解及思路

NLP（三）TF-IDF的原理和实践

金融NLP需求落地实践总结——热门话题生成

NLP实践——知识图谱问答模型FiD

NLP实践——Bert转onnx格式简介与踩坑记录

NLP实践——基于SIFRank的英文关键短语抽取

NLP实践——基于SIFRank的中文关键短语抽取

NLP实践——多层多分类项目NeuralNLP-NeuralClassifier

NLP实践——Sentence-transformer + FAISS 语义搜索

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)