猫眼电影top100票房爬虫 Request + 正则 - 代码天地

猫眼电影top100票房爬虫 Request + 正则

其他 2019-01-10 23:01:17 阅读次数: 0

import json
import re
from multiprocessing.pool import Pool

import requests
from requests import RequestException


def get_one_page(url):
    try:
        response =requests.get(url)
        if response.status_code==200:
            return response.text
    except RequestException:
        return None
def parse_one_page(html):
    '''
    对界面进行解析
    :param html:
    :return:
    '''
    pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a .*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?integer">(.*?)</i>.*?fraction">(\d+)</i>',re.S)#正则表达式
    items=re.findall(pattern,html)

    for item in items:
        yield {
            '序号':item[0],
            '图片':item[1],
            '电影名': item[2],
            '主演': item[3].strip()[3:],
            '上映时间': item[4].strip()[5:],
            '评分': item[5]+item[6],
        }

def write_to_file(content):
    '''
    写入文本
    :param content:
    :return:
    '''
    with open('猫眼top100.txt', 'a',encoding='utf-8')as f:#打开文件，如果没有就创建，encoding 指定编码方式
        f.write(json.dumps(content,ensure_ascii=False)+'\n')#ensure_ascii=False以指定的方式编码
def main(offset):
    url='https://maoyan.com/board/4?offset='+str(offset)
    html=get_one_page(url)

    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

    # print(html)
if __name__ == '__main__':
    for i in range (10):
        main(i*10)
    # pool=Pool()#多线程 进程池
    # pool.map(main,[i*10 for i in range (10)])

猜你喜欢

转载自www.cnblogs.com/liangliangzz/p/10252772.html

猫眼电影top100票房爬虫 Request + 正则

request+正则爬猫眼电影榜top100

猫眼电影北美票房爬虫 Request + 正则加强训练

python 爬虫正则表达式爬取猫眼电影top100榜

(爬虫)通过正则和多进程的方式,简单爬取猫眼Top100电影信息

python网络爬虫--正则表达式抓取猫眼电影排行TOP100

使用正则表达式爬虫抓取猫眼电影排行Top100

正则匹配的抓取猫眼电影排行Top100

request+正则表达式，爬取豆瓣电影top100

多进程爬虫+正则猫眼TOP100

爬虫从头学之Requests+正则表达式爬取猫眼电影top100

Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100

requests+正则表达式爬猫眼电影TOP100

笔记：Requests+正则爬取猫眼电影top100

【Python】Requests+正则表达式爬取猫眼电影TOP100

Requwsts+正则表达式爬取猫眼电影Top100

利用requests和正则爬取猫眼电影top100榜单

Requests+正则表达式爬取猫眼TOP100电影

爬取猫眼电影TOP100（回顾正则表达式）

爬取猫眼电影榜单Top100—利用requests、正则表达式

Python requests + 正则表达式猫眼电影top100 信息抓取

利用正则表达式爬取猫眼电影TOP100信息

requests+正则表达式爬取猫眼电影TOP100

Python爬虫学习---正则抓取猫眼视频Top100信息

python3.6 利用requests和正则表达式爬取猫眼电影TOP100

利用requests和正则表达式re爬取猫眼电影top100，并下载图片

Python——2020爬取猫眼电影Top100（一系列分析和小白版正则小技巧）

网络爬虫-猫眼电影top100

爬虫_抓取猫眼电影TOP100

python正则表达式入门，贪婪匹配和非贪婪匹配，正则表达式的分组，猫眼电影TOP100信息提取

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)