python 自然语言处理第三章 - 代码天地

python 自然语言处理第三章

其他 2019-03-23 03:52:20 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/duan20140614/article/details/78547940

1.访问文件：

A.本地文件
import os
file=open(path)----指针
file.read()----得到字符串
for line in file ----遍历文件的每一行
B.网络文件
from urllib import urlopen
file=urlopen(url)
file.read()

2.分词：

tokens=nltk.word_tokenize(string)----对字符串进行分词，得到list类型
**分词函数word_tokenize 的参数string中必须要有空格或其他标点才能分词
type(tokens) ----list类型

3.使用unicode 进行文件处理
模块：codecs
import codecs
file=codes.open(path,encoding="latin2")
for line in file:
line=line.encode("unicode_escape")----编码格式unicode_escape，将所有的非ASCII码的字符转换成“\uXXXX”的形式，但是在128到256之间的字符，转换成“\xXX”格式。

字符编码格式：
utf-8 ----用1-4个字节来表示字符
utf-16 ----2字节
utf-32 -----4字节
gbk ----不论中英文，都是两个字节
latin

编码字符：unicode,ASCII

4.正则表达式的应用
模块：re
import re

使用的元字符：
^:代表以什么开头如:r^"ad"
$:以什么结尾
.:任意单个字符
？：前面的字符可选
[abc]:a|b|c
*:零次或多次重复
+：
{n}：重复n次
{n,}:至少n次
{,n}:至多n次
r"abc":表示是原始字符串，特殊字符不会被解释

函数：
(1).re.search("****",word) ----在查找是否有如模式"****"的单词
[w for w in wordlist if re.search(r"[a-z]+",w)]
(2).re.findall("****",word) -----找出单词word的所有正则表达式“****”
cv=[(cv,w] for w in text
for cv in re.findall(r"[ptksvr][aeiou]",w)]
nltk.index(cv) ----查找拥有正则表达式的单词

应用
a.规范文本：
词干提取器----nltk中的Porter和Lancaster
b.为文本分词
re.split(r"",sentence) ----使用正则表达式为句子分词

猜你喜欢

转载自blog.csdn.net/duan20140614/article/details/78547940

python 自然语言处理第三章

python 自然语言处理第三章

第三章深入理解python语言

第三章 Python 的语言基础

第三章：Python 编程

python学习第三章

Python学习（第三章）

python第三章总结

python第三章

《NLP汉语自然语言处理原理与实践》第三章词汇与分词技术

自然语言处理: 第三章NPLM(Neural Probabilistic Language Mode)

python自学（三）第三章异常处理及程序调试、文件及目录操作

第三章-处理原始文本(Natural Language Processing with Python第二版)

Python日记--第三章Python基础

流畅的python，Fluent Python 第三章笔记

Python基础：第三章-python输入与输出

《数据结构与算法（Python语言描述）》第三章、自己的理解

《数据结构与算法(Python语言描述)》第三章链表反转

Python语言程序设计基础（第2版）课后题第三章

数据结构与算法 Python语言实现第三章练习

第三章 python webdriver API（三）

Python自然语言处理

Python 自然语言处理

《Python自然语言处理》第一章

python 自然语言处理第五章

python 自然语言处理第二章

Python 自然语言处理第一章

python培训第三章，模块

python 核心编程第三章习题答案

Python教材第三章部分习题

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)