python自然语言处理-读书笔记4

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zlp_zky/article/details/83011452
# -*- coding:utf-8 -*-
# __author__ = 'lipzhang'
import nltk, re, pprint
#从网络和硬盘访问文本
#电子书
from urllib.request import urlopen
from bs4 import BeautifulSoup
# url = r'https://www.gutenberg.org/files/2554/2554-0.txt'#从网络上阅读小说罪与罚
# proxies = {'http': 'http://www.someproxy.com:3128'}
# raw =urlopen(url).read()
# raw=raw.decode('utf-8')
# print(len(raw))
# print(raw[:75])
# tokens = nltk.word_tokenize(raw)
# text = nltk.Text(tokens)
# print(text)
# print(raw.find("PART I"))
# print(raw.rfind("End of Project Gutenberg's Crime"))
# raw = raw[5303:-1]
#print(raw)

#处理HTML
# url = "http://news.bbc.co.uk/2/hi/health/2284783.stm"
# html = urlopen(url).read()
# print(html[:60])
# raw = BeautifulSoup(html,'html').get_text()
# print(raw)
# tokens = nltk.word_tokenize(raw)
# print(tokens)
# tokens = tokens[96:399]
# text = nltk.Text(tokens)
# print(text)
# print(text.concordance('gene'))


#处理搜索引擎的结果

#处理 RSS 订阅
# import feedparser
# llog = feedparser.parse("http://languagelog.ldc.upenn.edu/nll/?feed=atom")
# print(llog['feed']['title'])
# post = llog.entries[2]
# print(post.title)
# content = post.content[0].value
# print(content[:70])
#
# content=nltk.word_tokenize(BeautifulSoup(content,'html').get_text())#去除html标签
# print(content[:70])
#
# st=nltk.word_tokenize(BeautifulSoup(llog.entries[2].content[0].value,'html').get_text())
# print(st)


#读取本地文件和语料库文件名
path = nltk.data.find('corpora/gutenberg/melville-moby_dick.txt')
raw = open(path, 'rU').read()#'r'意味着以只读方式打开文件(默认),'U'表示“通用”,它让我们忽略不同的换 行约定。
print(raw)

#从PDF 、MS Word及其他二进制格式中提取文本
#使用pypdf2
#捕获用户输入
s = input("Enter some text: ")
print("You typed", len(nltk.word_tokenize(s)), "words." )

#NLP处理一般流程 处理流程 :打开一个 URL, 读里面 HTML 格式的内容 , 去除标记 , 并选择字符 的 切 片 ,然后分词 ,是否转换为 nltk.Text 对象是可选择的 。我们也可以将所有词汇小写并提取 词汇表

猜你喜欢

转载自blog.csdn.net/zlp_zky/article/details/83011452