用Pyquery重写崔庆才的《Python3网络爬虫开发实战》的猫眼爬取（正则表达式不会用。。。。） - 代码天地

用Pyquery重写崔庆才的《Python3网络爬虫开发实战》的猫眼爬取（正则表达式不会用。。。。）

其他 2018-09-09 20:12:38 阅读次数: 0

目前正在学Python爬虫，正在读崔庆才的《Python3网络爬虫开发实战》，之前学习正则表达式，但是由于太难，最后放弃了（学渣的眼泪。。。。），在这本书上的抓取猫眼电影排行上，后来自学了pyquery，发现用pyquery可以解决这个问题，目前自己试着写了代码

以下代码没有图的链接

import requestsfrom pyquery import PyQuery as pqimport time
def get_one_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36'
    }
    html = requests.get(url=url,headers=headers)
    return html.text
def parse_one_page(html):
    doc = pq(html)
    items = doc('dd').items()
    for item in items:
        item1 = item.find('.board-item-main .board-item-content .movie-item-info')#空格表示嵌套
        item2 = item.find('.board-index')
        print('名次:' + item2.text())
        name = item1.find('.name').text()
        star = item1.find('.star').text()
        time = item1.find('.releasetime').text()
        score = item1.siblings('.movie-item-number .score .integer').text() + item1.siblings('.movie-item-number .score .fraction').text()
        print('电影名:' + name + '\n' +
              star + '\n' + time + '\n' + '评分:'+score +'\n')
def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset) #设置偏移量
    html = get_one_page(url)
    parse_one_page(html)
if __name__ == '__main__':
    for i in range(10):
        main(offset = i * 10)
        time.sleep(1)#由于现在猫眼多了反爬虫，如果速度过快则无响应，所以要添加延时等待。

View Code

猜你喜欢

转载自www.cnblogs.com/Weixu-Liu/p/9614751.html

用Pyquery重写崔庆才的《Python3网络爬虫开发实战》的猫眼爬取（正则表达式不会用。。。。）

【转】《Python3网络爬虫开发实战》崔庆才 PDF 收藏

2019最新崔庆才python3网络爬虫开发项目实战(完整)

《崔庆才Python3网络爬虫开发实战教程》学习笔记（3）：抓取猫眼电影榜单TOP100电影，并存入Excel表格

Python3网络爬虫实战解析——静态小说网爬取（使用正则表达式解析）

Python3中正则表达式使用方法（崔庆才）

python3网络爬虫开发实战学习笔记(一)--------python正则表达式re模块

《Python3网络爬虫开发实战》崔庆才 PDF 百度云下载

崔庆才Python3网络爬虫开发实战电子版书籍分享

Python 3网络爬虫开发实战.pdf（崔庆才著）

python3网络爬虫：爬虫正则表达式下载图片（六）

Python3网络爬虫——（5）正则表达式（re模块）

崔庆才《Python3网络爬虫开发实战教程》的学习笔记系列第一章基本库的使用

《崔庆才Python3网络爬虫开发实战教程》学习笔记（4）：解析库Xpath的使用方法总结

《崔庆才Python3网络爬虫开发实战教程》学习笔记（5）：将爬虫爬取到的数据存储到TXT，Word，Excel，Json等文件中

分享《Python 3网络爬虫开发实战》中文PDF+源代码崔庆才著

分享百度云链接 Python 3网络爬虫开发实战 ,崔庆才著

【笔记】5、初学python3网络爬虫——正则表达式的基本使用

Python3网络爬虫教程12——页面解析及正则表达式的使用

《Python3网络爬虫实战案例（崔庆才著）》中文版PDF下载，附源代码+视频教程

【Python3 爬虫】U20_正则表达式爬取古诗文网

python3网络爬虫开发实战学习笔记(二)------python3 XPATH爬猫眼电影排名

Python爬虫实战之Requests+正则表达式爬取猫眼电影Top100

python正则表达式爬取猫眼电影

Python3网络爬虫实战-30、PyQuery

python 爬虫正则表达式爬取猫眼电影top100榜

自学python爬虫（四）Requests+正则表达式爬取猫眼电影

Python爬虫-利用正则表达式爬取猫眼电影

Python爬虫：正则表达式爬取猫眼电影

python爬虫之正则表达式爬取猫眼前100的电影（七）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)