简单爬虫+词云+主体模型 - 代码天地

简单爬虫+词云+主体模型

其他 2018-07-27 10:11:14 阅读次数: 0

从小说网上爬取一篇章节，获取本章节的关键词top，主题模型，做出词云图像。

原网站小说如下：

代码如下：

#调用获取网页信息的库
from urllib import request
#筛选网页信息
from bs4 import BeautifulSoup
from jieba import analyse
import pandas as pd
import jieba
from wordcloud import WordCloud#词云
import matplotlib.pyplot as plt
from gensim import models,corpora
import re
#写入要获取的网页的网址 给它编码不然会出问题
html1 = request.urlopen('http://www.biquge.info/8_8705/6740638.html') \
.read().decode('utf-8')
#创建一个txt文件 每次覆盖 编码中文
file = open('AAAAAA.txt','w',encoding='utf-8')
#放入此方法可以调用一些筛选方法
html = BeautifulSoup(html1,'html.parser')
#获取div中 id 为content中的文本
txt = str(html.select('div #content'))
txt = txt.replace('<br/><br/>','\n')
file.write(str(txt))
r = '[A-Za-z0-9]+'

word = ''
with open('AAAAAA.txt',encoding='utf-8') as f:
    for i in f.readlines():
        i.strip()
        i = re.sub(r,'',i)
        word += i
word = word.replace('[<div id="content">','')
word = word.replace('</div>]','')
stop = ''
with open('stopwords.txt',encoding='utf-8') as f:
    for i in f.readlines():
        stop +=i
        stop += '\xa0'
word = jieba.lcut(word)
word = filter(lambda x:x not in stop,word)
word = list(filter(lambda x:len(x)>1,word))
txt = word
word = pd.Series(word).map(lambda x:[x])
dict_word = corpora.Dictionary(word)
corpus = [dict_word.doc2bow(i) for i in word]
mode = models.LdaModel(corpus,num_topics=5,id2word=dict_word)
for i in range(5):
    print(mode.print_topics()[i])



# top10 = analyse.extract_tags(txt,10,withWeight=True)
# for i in range(10):
#     print(top10[i])
colud = WordCloud(font_path='search-ms:displayname=“Windows%20(C%3A)”中的搜索结果&crumb=location:C%3A%5C\Fonts\STXINWEI.TTF')
word_c = colud.generate_from_text(str(txt))
plt.imshow(word_c)
plt.axis('off')
plt.show()

结果如下：

可以去爬自己的小说试试看0.0

猜你喜欢

转载自blog.csdn.net/weixin_42792500/article/details/81224579

简单爬虫+词云+主体模型

简单文本挖掘(二)、关键词及主体模型

结巴分词与词云，简单爬虫——10.28 (python)

python爬虫生成词云

爬虫 and 词云结合例子

爬虫之绘图matplotlib与词云(七)

Python爬虫：绘图matplotlib与词云

爬虫获取 bilibili 弹幕并生成词云

python爬虫+词云生成小说简介

【爬虫系列】爬虫实战--获取电影短评并生成词云

爬虫网易云音乐，热评，词云，prettytable。

python词云 wordcloud 简单实例入门

爬虫大作业——爬取网站数据生成词云

scrapy爬虫之抓取《芳华》短评及词云展示

爬虫入门之绘图matplotlib与词云(七)

Python网络爬虫（一）爬取、存储、生成词云

python爬虫+词云图，爬取网易云音乐评论

python爬虫之绘图matplotlib与词云(七)

python-爬虫-庆余年小说-词云胡乱分析

Python爬虫示例爬取豆瓣影评生成词云

Python爬虫：爬取网络流行词制作词云

词云怎么做 , 最简单基础的词云功能

词云

主体评级模型的开发过程

简单的网易云音乐热门评论爬虫

简单文本挖掘(一)、词云（自定义形状）

Python 词云【中/英】小白简单入门教程

利用python实现简单词频统计、构建词云

简单爬取《小丑》电影豆瓣短评生成词云

简单用python的爬取文章生成词云

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)