初次用python写一个简单爬虫-获取电影天堂电影列表

import re
from urllib import request
import time
# 电影天堂电影列表页,{}里面是页码,一共有200多页
url = 'https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html'  
# 正则表达式,标题名称带有其他信息,《》中间的是想要获取的电影名称
name_pattern = 'class="ulink">([\w\W].*?)《([\w\W].*?)》([\w\W].*?)</a>'
# 给个空列表,用来存电影名称
movies = []
starttime = time.time()  # 这里是为了比较一下两种方法的效率,记录程序开始时间
# 新建的txt默认是gbk编码的,而查看网页源码,编码是gb2312
stream = open('movies.txt', 'w', encoding='gb2312')  
for i in range(1, 3):  # 只取前3页
    url_visit = url.format(i)  # 通过formate拼凑出完整的网页地址
    content = request.urlopen(url_visit).read()
    # gb18030  内容里面有繁体字,所以使用gb2312会报错,ignore忽略报错
    http_content = content.decode('gb2312', errors='ignore')  
    movie_name = re.findall(name_pattern, http_content)

    for name in movie_name:    # 遍历当前页的全部,每页默认有25个电影
        movies.append(name[1])  # 获取电影名称,也就是《》中间的内容,是name的第2个元素
        stream.write(name[1]+'\n')   # 一次写一个并加一个换行
stream.close()  # 关闭文件流
print(time.time()-starttime)  # 这里是为了比较一下两种方法的效率,打印程序运行时间
# 事实证明,方法二慢50%左右

# 方法二:最后统一一次把电影名称写入movies.txt,用时更长
# with open('movies.txt', 'w', encoding='gb2312') as file_stream:  
#     for movie in movies:
#         file_stream.write(str(movie) + '\n')


发布了4 篇原创文章 · 获赞 2 · 访问量 83

猜你喜欢

转载自blog.csdn.net/marvinmao/article/details/104932344