python爬虫之爬取时光网电影影评 - 代码天地

python爬虫之爬取时光网电影影评

其他 2018-08-16 12:11:04 阅读次数: 0

最近看了美国往事这部电影。于是就想到最近刚学的爬虫，就像试试把时光网影评爬取下来，并按照影评的名字存放在本地文件夹。

在长影评页面可以看到每篇文章的标题对应都有一个blogid，并且这个id对应该影评正文页的后缀

那么我们便可以通过这个id来实现获取当前页所有影评的地址

首先定义一个方法

id = []#存储电影id

text = []#存储文本

name = ''#存储文章名字

def getUrl(url):
response = requests.get(ur)
html = response.text
soup = BeautifulSoup(html, 'html.parser')
main = soup.find_all(class_ = 'db_comtool')#找到所有标签为db_comtool的div里面内容
for i in main:
id.append(i.get('blogid'))#将所有blogid的内容添加到id这个列表中

这个时候我们就得到了当前页所有的id

然后打开任意一篇文章查看源代码分析可以得出正文文本所在的<p>标签在一个class为db_mediacont db_commentcont的div里面文章的标题在一个class为px38 mt30 c_000的<h2>标签中

def getArticle(url):
global text
response = requests.get(url)#访问网站
html = response.text#保存网站源代码
bf = BeautifulSoup(html,'html.parser')#解析网址
a1 = bf.find_all(class_='db_mediacont db_commentcont')#获取正文文本
a2 = bf.find_all(class_='px38 mt30 c_000')#获取文章标题
for each in a1:
text.append(re.sub('[\t\n]', "", re.sub(r'<[^>]+>', "", str(each))))#利用正则表达式过滤掉无用内容
for each in a2:
name = (re.sub('[\t\n]', "", re.sub(r'<[^>]+>', "", str(each))))
f = open('时光网影评/%s.txt'%name, 'w') # 首先先创建一个文件对象，打开方式为w，名字为刚才得到的name
for each in text:
f.writelines(each.encode("gbk", 'ignore').decode("gbk", "ignore")) # 用readlines()方法写入文件
text = []#清空text

然后将网址放入函数中打开

for i in range(1,15):
ur = 'http://movie.mtime.com/11319/comment-{}.html'.format(i)#自动翻页
getUrl(ur)
for i in id:
url = 'http://movie.mtime.com/11319/reviews/{}.html'.format(i)#自动访问每篇影评的对应地址
getTitle(url)

最后可以看到已经成功的将影评保存在本地了。

猜你喜欢

转载自blog.csdn.net/qq_38698753/article/details/81704269

python爬虫之爬取时光网电影影评

回顾Xpath（爬取时光网电影TOP100）

python项目实战分析:爬取时光网电影TOP100

Python爬虫之豆瓣电影评论数据的爬取（十四）

Python获取时光网电影数据

Python爬虫爬取豆瓣电影评论内容，评论时间和评论人

猫眼电影影评爬取

Python 爬取猫眼《邪不压正》电影评论

Python爬虫之爬取豆瓣电影（一）

Python爬虫之爬取豆瓣电影（二）

python3 爬虫学习之爬取猫眼电影

Python网络爬虫学习之爬取豆瓣电影（四）

Python爬虫之爬取全站的小电影

python爬虫之爬取豆瓣电影top250

爬虫---实现爬取电影资料和电影评论（豆瓣）

Scrapy爬取猫眼电影评论

爬虫之爬取豆瓣电影的名字

爬虫之爬取电影天堂（request）

Python爬虫(二十)_动态爬取影评信息

Python爬虫示例爬取豆瓣影评生成词云

【python爬虫实战】爬取豆瓣影评数据

python爬虫，爬取豆瓣电影信息

Python爬虫爬取猫眼电影排行

python爬虫爬取猫眼电影数据

[python爬虫]爬取电影天堂连接

Python爬虫：爬取网站电影信息

python爬虫实践——爬取豆瓣电影

python爬虫爬取豆瓣电影信息

python爬虫实现爬取电影信息

[Python爬虫]猫眼电影榜单爬取

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)