keras.preprocessing.text.Tokenizer - 代码天地

keras.preprocessing.text.Tokenizer

其他 2020-09-08 10:38:40 阅读次数: 0

keras.preprocessing.text.Tokenizer

Tokenizer 是一种用于自然语言处理的类，其具体的功能是把一个词（中文单个字或者词组认为是一个词）转化为一个正整数，于是一个文本就变成了一个序列。这里改类方具体如图所示：
类方法
具体的代码用例如下所示：

from keras.preprocessing import text
#facts, accu_label, article_label, imprison_label=load_data()
somestr = ['ha ha gua angry','howa ha gua excited naive']

tok=text.Tokenizer() #初始化标注器
tok.fit_on_texts(somestr) #学习出文本的字典
word_index = tok.word_index#查看对应的单词和数字的映射关系dict
print(word_index)
sequences = tok.texts_to_sequences(somestr) #通过texts_to_sequences 这个dict可以将每个string的每个词转成数字
print(sequences)

输出的结果如下：


{'ha': 1, 'gua': 2, 'angry': 3, 'howa': 4, 'excited': 5, 'naive': 6}
[[1, 1, 2, 3], [4, 1, 2, 5, 6]]

如果处理的文本为中文：

text =  ['符于香 违反 群众 纪律，利用 职务 便利。']
{'符于香': 1, '违反': 2, '群众': 3, '纪律，利用': 4, '职务': 5, '便利。': 6}
[[1, 2, 3, 4, 5, 6]]

可见texts_to_sequences的作用是将已经分好的词语变为用整数表示的序列。

猜你喜欢

转载自blog.csdn.net/rouge_eradiction/article/details/108456263

keras.preprocessing.text.Tokenizer

单词编码: keras.processing.text.Tokenizer

Keras文本预处理相关函数简介（text preprocessing）

keras目录文件详解5.1（preprocessing\text.py）-keras学习笔记五

Keras Tokenizer中的注意点

文本预处理 Text Preprocessing

keras.preprocessing.sequence.pad_sequences

preprocessing

Keras.preprocessing.sequence.pad_sequences 函数详解

keras\preprocessing目录文件详解5.2（sequence.py）-keras学习笔记五

keras\preprocessing目录文件详解5.1（image.py）-keras学习笔记五

Keras解决ImportError: cannot import name ‘pad_sequences‘ from ‘keras.preprocessing.sequence‘报错

利用 Keras 的类 Tokenizer 对原始文本数据进行单词级 one-hot 编码

tf.contrib.keras.preprocessing.sequence.pad_sequences 将标量数据转换成numpy ndarray

成功解决INFO: pip is looking at multiple versions of keras-preprocessing to determine which version is c

已解决module ‘keras.preprocessing.image‘ has no attribute ‘load_img‘

【AI学习笔记】AttributeError: module ‘keras.preprocessing.sequence‘ has no attribute ‘pad_sequences‘

Text-CNN-文本分类-keras

keras文本预处理介绍——Text

LLM的Tokenizer

FXC Preprocessing

The sklearn preprocessing

【tf.keras】basic 02: Movie reviews Text classification

[nlp] tokenizer加速：fast_tokenizer=True

【Python学习】 - 使用PIL, cv2, keras.preprocessing, scipy.imageio, matplotlib.image, skimage读取和保存图像的方法

Haskell Lesson：a tokenizer

Spark ml之Tokenizer

分词器(Tokenizer)

preprocessing模块的sklearn.preprocessing.scale()方法

preprocessing数据预处理

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)