用pyquery 初步改写崔庆才的抓取猫眼电影排行（正在更新）特意置顶，提醒自己更新 - 代码天地

用pyquery 初步改写崔庆才的抓取猫眼电影排行（正在更新）特意置顶，提醒自己更新

其他 2018-06-16 20:42:50 阅读次数: 3

目前正在学Python爬虫，正在读崔庆才的《Python3网络爬虫开发实战》，之前学习正则表达式，但是由于太难，最后放弃了（学渣的眼泪。。。。），在这本书上的抓取猫眼电影排行上，后来自学了pyquery，发现用pyquery可以解决这个问题，目前自己试着写了代码

以下代码没有图的链接

import requests
from pyquery import PyQuery as pq
import time

def get_one_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36'
    }
    html = requests.get(url=url,headers=headers)
    return html.text

def parse_one_page(html):
    doc = pq(html)
    items = doc('dd').items()
    for item in items:
        item1 = item.find('.board-item-main .board-item-content .movie-item-info')#空格表示嵌套
        item2 = item.find('.board-index')
        print('名次:' + item2.text())
        name = item1.find('.name').text()
        star = item1.find('.star').text()
        time = item1.find('.releasetime').text()
        score = item1.siblings('.movie-item-number .score .integer').text() + item1.siblings('.movie-item-number .score .fraction').text()
        print('电影名:' + name + '\n' +
              star + '\n' + time + '\n' + '评分:'+score +'\n')

def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset) #设置偏移量
    html = get_one_page(url)
    parse_one_page(html)

if __name__ == '__main__':
    for i in range(10):
        main(offset = i * 10)
        time.sleep(1)#由于现在猫眼多了反爬虫，如果速度过快则无响应，所以要添加延时等待。

猜你喜欢

转载自www.cnblogs.com/Weixu-Liu/p/9191216.html

用pyquery 初步改写崔庆才的抓取猫眼电影排行（正在更新）特意置顶，提醒自己更新

用Pyquery重写崔庆才的《Python3网络爬虫开发实战》的猫眼爬取（正则表达式不会用。。。。）

猫眼电影爬取--崔庆才老哥教程记录

《崔庆才Python3网络爬虫开发实战教程》学习笔记（3）：抓取猫眼电影榜单TOP100电影，并存入Excel表格

【转载】崔庆才爬虫笔记

崔庆才python爬虫教程

用PyQuery实现网页解析

用python爬取猫眼电影排行

python：崔庆才微博的爬取

鉴于崔庆才大大的对于 beautifulsoup 的再理解

静觅丨崔庆才的个人博客

PyQuery

抓取猫眼电影排行

。。抓取猫眼电影排行

selenium和pyquery抓取异步加载数据

Python 3网络爬虫开发实战.pdf（崔庆才著）

A 1. 笔记 - python网络爬虫实战笔记 - 崔庆才（7.9--）

【转】《Python3网络爬虫开发实战》崔庆才 PDF 收藏

python网络爬虫开发实战（崔庆才）_14页_chromedriver环境配置和加载

Python3中正则表达式使用方法（崔庆才）

2019最新崔庆才python3网络爬虫开发项目实战(完整)

崔庆才爬虫训练网址第一题ssr1

python爬虫实战：利用pyquery爬取猫眼电影TOP100榜单内容-1

猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库

# [爬虫Demo] pyquery+csv爬取猫眼电影top100

抓取猫眼电影排行top100

爬虫之抓取猫眼电影排行

抓取猫眼电影排行T100

网络爬虫学习——抓取猫眼电影排行

《Python3网络爬虫开发实战》崔庆才 PDF 百度云下载

今日推荐

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

对话Kaldi之父、小米首席语音科学家Daniel Povey：开源环境比金钱和荣誉更吸引我 | AGI技术50人...

Hugging Face全攻略：轻松下载Llama 3模型，探索NLP的无限可能！【实操】

阅读送书抽奖？玩转抽奖游戏，js-tool-big-box工具库新上抽奖功能

百度发布Comate代码知识增强2.0，国内首个支持实时检索智能代码助手

黑客利用扫雷游戏 Python 克隆隐藏恶意脚本，攻击欧洲和美国金融机构

微软对开源字体 Cascadia Code 进行重大更新

好书推荐《ChatGPT原理与架构：大模型的预训练、迁移和中间件编程》

Baidu Comate 智能编码助手：编程新伙伴，效率新飞跃

AI时代：人工智能大模型引领科技创造新时代

百篇博客 · 千里之行

周排行

Python模块之shelve

勇于承担责任

Hikyuu 1.1.0 发布，量化交易研究框架

字节跳动Java3面“凉凉”~不负韶华，努力复习备战“金三银四”

Linux下静态链接库与动态链接库的区别

spring boot架构改造

怎么理解AOP

文件不同步 --本地和eclipse

在linux配置nginx负载均衡

Linux Shell基础命令

每日归档

更多

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)