python自然语言处理-读书笔记 - 代码天地

python自然语言处理-读书笔记

其他 2018-10-18 10:51:24 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/zlp_zky/article/details/83013535

#使用UniCode进行文字处理
#Unicode支持超过一百万种字符。每个字符分配一个编号，称为编码点。在 Python中， 编码点写作\uXXXX 的形式，其中 XXXX是四位十六进制形式数。

#从文件中提取已编码文本
import codecs
path = nltk.data.find('corpora/unicode_samples/polish-lat2.txt')
f = codecs.open(path, encoding='latin2') #我们可以使用f = codecs.open(path, 'w', encoding='utf -8')写入 Unicode 编码数据到一个文件。
for line in f:
    line = line.strip()
    print(line.encode('unicode_escape'))

import re #在python中使用正则表达式，需要使用re函数库，还需要用于搜索的词汇链表
wordlist=[w for w in nltk.corpus.words.words('en') if w.islower()]
print([w for w in wordlist if re.search('ed$', w)])#使用正则表达式«ed$»查找以ed 结尾的词汇。re.search(p, s)检查字符 串s 中是否有模式 p
print([w for w in wordlist if re.search('^..j..t..$', w)])#通配符“.”匹配任何单个字符。假设我们有一个8 个字母组成的词的字谜室，j 是其第 三个字母，t 是其第六个字母。空白单元格中的每个地方，我们用一个句点
#插入符号“^”匹配字符串的开始，就像“$”符号匹配字符串的 结尾
#最后，符号“?”表示前面的字符是可选的。因此«^e-?mail $»将匹配 email 和 e-mai l。我们可以使用sum(1 for w in text if re.search('^e-? mail$', w))计数一个文本 中这个词（任一拼写形式）出现的总次数。
print( [w for w in wordlist if re.search('^[ghi][mno][jlk][def]$', w)])#两个或两个以上的词汇以相同的击键顺序 输入，这叫做输入法联想提示。例如：hole 和golf 都是通过输入序列4653。

chat_words = sorted(set(w for w in nltk.corpus.nps_chat.words()))
print([w for w in chat_words if re.search('^m+i+n+e+$', w)])
print([w for w in chat_words if re.search('^[ha]+$', w)])#“+”表示的是“前面的项目的一个或多个实例，现在让我们用“*”替换“+”，它表示 “前面的项目的零个或多个实例。
#：«[^aei ouAEIOU]»匹配除元音字母之外的所有字母。

猜你喜欢

转载自blog.csdn.net/zlp_zky/article/details/83013535

python自然语言处理 -读书笔记1

python自然语言处理-读书笔记

python自然语言处理-读书笔记9

python自然语言处理-读书笔记8

python自然语言处理-读书笔记7

python自然语言处理-读书笔记6

python自然语言处理-读书笔记5

python自然语言处理-读书笔记4

python自然语言处理-读书笔记3

【读书笔记】《Python自然语言处理》第1章语言处理与Python

《自然语言处理入门》读书笔记

《自然语言处理综述》-第三版读书笔记01

1-人工智能简史之自然语言处理（读书笔记）

文本上的算法——深入浅出自然语言处理（读书笔记）

自然语言处理入门何晗读书笔记第1章新手上路

Python自然语言处理

Python 自然语言处理

自然语言处理综述--《自然语言理解》笔记

Python自然语言处理-学习笔记(5) —— 标注词汇

Python 自然语言处理笔记（二）—— 中文分词

《用Python进行自然语言处理》笔记1

《用Python进行自然语言处理》笔记2

【读书笔记】自然语言处理综述 -- 第六章 -- 隐马尔可夫模型和最大熵模型

自然语言处理学习笔记（四）

自然语言处理学习笔记（三）

自然语言处理学习笔记（二）

自然语言处理学习笔记（一）

自然语言处理学习笔记（五）

自然语言处理学习笔记（英文）

自然语言处理复习笔记 1

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)