初次用python写一个简单爬虫-获取电影天堂电影列表 - 代码天地

初次用python写一个简单爬虫-获取电影天堂电影列表

其他 2020-04-20 10:42:00 阅读次数: 0

import re
from urllib import request
import time
# 电影天堂电影列表页，{}里面是页码，一共有200多页
url = 'https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html'  
# 正则表达式，标题名称带有其他信息，《》中间的是想要获取的电影名称
name_pattern = 'class="ulink">([\w\W].*?)《([\w\W].*?)》([\w\W].*?)</a>'
# 给个空列表，用来存电影名称
movies = []
starttime = time.time()  # 这里是为了比较一下两种方法的效率，记录程序开始时间
# 新建的txt默认是gbk编码的，而查看网页源码，编码是gb2312
stream = open('movies.txt', 'w', encoding='gb2312')  
for i in range(1, 3):  # 只取前3页
    url_visit = url.format(i)  # 通过formate拼凑出完整的网页地址
    content = request.urlopen(url_visit).read()
    # gb18030  内容里面有繁体字，所以使用gb2312会报错，ignore忽略报错
    http_content = content.decode('gb2312', errors='ignore')  
    movie_name = re.findall(name_pattern, http_content)

    for name in movie_name:    # 遍历当前页的全部，每页默认有25个电影
        movies.append(name[1])  # 获取电影名称，也就是《》中间的内容，是name的第2个元素
        stream.write(name[1]+'\n')   # 一次写一个并加一个换行
stream.close()  # 关闭文件流
print(time.time()-starttime)  # 这里是为了比较一下两种方法的效率，打印程序运行时间
# 事实证明，方法二慢50%左右

# 方法二：最后统一一次把电影名称写入movies.txt，用时更长
# with open('movies.txt', 'w', encoding='gb2312') as file_stream:  
#     for movie in movies:
#         file_stream.write(str(movie) + '\n')

MarvinMao

发布了4 篇原创文章 · 获赞 2 · 访问量 83

私信关注

猜你喜欢

转载自blog.csdn.net/marvinmao/article/details/104932344

初次用python写一个简单爬虫-获取电影天堂电影列表

python爬虫之电影天堂

Python获取电影天堂各版块电影

python爬虫（十七）电影天堂爬虫1

电影天堂爬虫

爬虫电影天堂

电影天堂小爬虫

用php实现一个简单的爬虫，抓取电影网站的视频下载地址

[python爬虫]爬取电影天堂连接

python爬虫获取电影天堂中电影的标题与下载地址，并用正则表达匹配电影类型

利用python爬虫(案例1)--电影天堂的小电影们

入门级用Python写一个简单的网络爬虫下载和获取数据

一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接

电影天堂python脚本

爬虫_电影天堂热映电影（xpath）

爬虫爬取电影天堂电影链接

网络爬虫（四）电影天堂电影下载

【爬虫】电影天堂最新电影+小程序

简单的PHP爬虫，获取豆瓣正在热映电影列表

python 爬取电影天堂电影

python 爬取电影天堂电影续编

python爬虫：获取电影信息~

python爬虫——爬取电影天堂磁力链接

爬虫学习（一）---爬取电影天堂下载链接

电影天堂

python--dytt(电影天堂)

Python爬取电影天堂

[python爬虫之路day5]：实战之电影天堂2019精选电影爬取

一个简单的爬虫：爬取豆瓣的热门电影的信息

爬虫之爬取电影天堂（request）

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)