利用requests和正则表达式爬取猫眼Top250电影 - 代码天地

利用requests和正则表达式爬取猫眼Top250电影

其他 2020-03-26 12:17:32 阅读次数: 0

import time
import os
import requests
from requests.exceptions import RequestException
import re
import json
from multiprocessing import Pool

# 获取网页的html
def get_one_page(url):
    try:
        headers = {
            "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) Apple\
                          WebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
        }
        response = requests.get(url, headers=headers)
        response.encoding = response.apparent_encoding
        if response.status_code == 200:
            return response.text
        return None
    except RequestException as e:
        return None

# 解析html,获取所需的排名，图片等信息
def parse_one_page(html):
    pattern = re.compile(r'<li>.*?class="pic".*?class="">(\d+)</em>.*?src="(.*?)".*?class="hd".*?'
                         + r'title">(.*?)</span>.*?class="bd".*?">(.*?)<br>.*?rating_num.*?average">(.*?)</span>'
                         + r'.*?content.*?<span>(.*?)</span>.*?</li>', re.S)
    items = re.findall(pattern, html)
    for item in items:
        # print(item)
        yield {
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'director': item[3].strip().split('   ')[0][4:],
            # 'actor': item[3].strip().split('   ')[1][4:].strip(' /...'),   # 
            'score': item[4],
            'score_number': item[5].strip()
        }

    # print(items)

# 将筛选出来的信息存入文件
def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
        f.close()

# 启动函数
def main(offset):
    url = 'https://movie.douban.com/top250?start=' + str(offset)
    html = get_one_page(url)
    # time.sleep(1)
    # parse_one_page(html)
    # print(html)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)


if __name__ == '__main__':
    if os.path.exists('result.txt'):
        os.remove('result.txt')
    pool = Pool()
    pool.map(main, [i*25 for i in range(10)])

　　1.在利用进程池爬取网页时，会出现文件的编码格式错误，目前还未找到原因，使用单进程不会出现这种情况。

猜你喜欢

转载自www.cnblogs.com/nxrs/p/12573435.html

利用requests和正则表达式爬取猫眼Top250电影

利用Requests库和正则表达式爬取豆瓣影评Top250

用Requests和正则表达式爬取豆瓣图书TOP250

爬取猫眼电影榜单Top100—利用requests、正则表达式

python3.6 利用requests和正则表达式爬取猫眼电影TOP100

利用requests和正则表达式re爬取猫眼电影top100，并下载图片

基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！

利用requests库和正则表达式爬取猫眼电影

requests+正则表达式爬取豆瓣读书top250

Requests + 正则表达式爬取猫眼电影

requests正则表达式爬取猫眼电影

python-对豆瓣的top250的爬取(利用正则表达式)

【Python】Requests+正则表达式爬取猫眼电影TOP100

Requests+正则表达式爬取猫眼TOP100电影

requests+正则表达式爬取猫眼电影TOP100

用Requests和正则表达式爬取猫眼电影(TOP100+最受期待榜）

【初学python爬虫02】Python3用Requests+正则表达式爬取豆瓣电影Top250

利用正则表达式爬取猫眼电影TOP100信息

爬虫从头学之Requests+正则表达式爬取猫眼电影top100

Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100

requests+正则表达式爬猫眼电影TOP100

Python爬虫入门——2. 5 利用正则表达式爬取豆瓣电影 Top 250

Requests+正则表达式爬取猫眼电影

用Requests+正则表达式爬取猫眼电影

python实战笔记之（1）：Requests+正则表达式爬取猫眼电影

Requests+正则表达式爬取猫眼电影前一百榜单

自学python爬虫（四）Requests+正则表达式爬取猫眼电影

14-Requests+正则表达式爬取猫眼电影

python-Requests + 正则表达式爬取猫眼电影

爬虫学习：Requests+正则表达式爬取猫眼电影

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)