【菜鸟学Python】使用面向对象以及Xpath爬取猫眼电影排行100 - 代码天地

【菜鸟学Python】使用面向对象以及Xpath爬取猫眼电影排行100

其他 2019-09-12 17:42:32 阅读次数: 0

使用面向对象以及Xpath爬取猫眼电影排行100

import time
import json
import requests
from lxml import etree


class MaoYanTop100(object):
    def __init__(self):
        self.url = 'https://maoyan.com/board/4'
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36"
        }

    def get_data(self, url, param):
        response = requests.get(url, params=param, headers=self.headers, verify=False)
        print(response.request.url)
        return response.text

    def parse_content(self, text):
        dom = etree.HTML(text)
        return dom

    def parse(self, dom):
        nodes = dom.xpath('//dd')
        for node in nodes:
            yield {
                'title': node.xpath('.//p/a/@title')[0],
                'actor': node.xpath('.//p[@class="star"]/text()')[0].strip(),
                'time': node.xpath('.//p[@class="releasetime"]/text()')[0]
            }

    def save(self, f, item):
        f.write(json.dumps(item, indent=2, ensure_ascii=False) + ',\n')

    def run(self):
        page = int(input('请输入页码：'))
        with open('maoyan.json', 'w') as f_obj:
            for i in range(page):
                param = {
                    'start': i * 10
                }
                text = self.get_data(self.url, param)
                time.sleep(1)
                dom = self.parse_content(text)
                my_generator = self.parse(dom)
                while True:
                    try:
                        # item_list = []
                        item = next(my_generator)
                        # item_list.append(item)
                        self.save(f_obj, item)
                    except:
                        break
                print(f'第{i + 1}页数据已保存完成')


if __name__ == '__main__':
    maoyan = MaoYanTop100()
    maoyan.run()

猜你喜欢

转载自www.cnblogs.com/liduo0413/p/11513092.html

【菜鸟学Python】使用面向对象以及Xpath爬取猫眼电影排行100

Python爬取猫眼电影排行TOP100的电影

使用xpath爬取猫眼电影排行榜

Python爬虫爬取猫眼电影排行

用python爬取猫眼电影排行

Python爬取猫眼电影排行

python爬取猫眼电影top100排行榜

Python爬虫学习笔记(实例：爬取猫眼电影排行前100)

使用requests和xpath爬取猫眼TOP100电影

一起学爬虫——使用xpath库爬取猫眼电影国内票房榜

python：猫眼电影TOP100的电影爬取

python — 定时爬取猫眼电影排行榜

python爬虫(实战)——爬取python菜鸟教程100道例题、猫眼电影top100、今日头条图集。

爬取猫眼电影排行榜

爬虫爬取猫眼电影排行

python爬虫入门新手向实战 - 爬取猫眼电影Top100排行榜

python爬取猫眼电影 top 100 保存到CSV

python爬虫爬取猫眼电影Top100

python爬虫，爬取猫眼电影top100

python爬取猫眼电影top100

python应用-爬取猫眼电影top100

python爬取猫眼电影的Top100

python爬虫入门 ✦ 爬取猫眼电影Top100

python爬虫入门 ✦ 爬取猫眼电影Top100

Python爬取猫眼电影top100数据

python爬虫--猫眼电影TOP100榜爬取

python爬取猫眼电影TOP100信息

python爬取猫眼电影

【菜鸟学Python】使用Scrapy框架爬虫猫眼排行

爬取猫眼电影Top100

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)