使用requests和xpath爬取猫眼TOP100电影 - 代码天地

使用requests和xpath爬取猫眼TOP100电影

其他 2018-11-20 10:30:48 阅读次数: 0

技术路线:requests-xpath

- 使用requests获取网页内容

使用try...except获取网页内容

- 使用xpath解析网页

对主要信息使用xpath进行提取

-翻页及反爬处理

猫眼的翻页处理是url处进行翻页的

http://maoyan.com/board/4?offset=0

http://maoyan.com/board/4?offset=10

所以可以拼接处理url

猫眼的反爬主要是根据user-agent判断，所以访问的时候需要指定headers


#!/usr/bin/env python
# _*_ coding:utf-8 _*_

import requests
from lxml import etree

def getHtml(url, headers):
    try:
        r = requests.get(url, headers=headers)
        r.raise_for_status()
        r.encoding = 'utf-8'
        return r.text
    except:
        print('ERROR')


def fillList(html):
    html = etree.HTML(html)
    img = html.xpath('//*[@id="app"]/div/div/div/dl/dd/a/img[2]/@data-src')    # 这里存在坑,使用Chrome查看元素时,图片属性是src,实际使用requests获取的时候,图片属性是data-src
    title = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[1]/a/text()')
    star = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[2]/text()')
    releasetime = html.xpath('//*[@id="app"]/div/div/div[1]/dl/dd/div/div/div[1]/p[3]/text()')
    for i in range(len(title)):
        temp = {
            'img': img[i][:-16],    # 提取图片的时候存在图片大小设定等,使用切片去除
            'title': title[i],
            'star': star[i].strip(),    # 提取主演信息的时候有很多空格跟换行符,使用.strip()函数去除
            'releasetime': releasetime[i],
        }
        print(temp)

def main():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
    }
    deep = 10
    for i in range(deep):
        url = 'http://maoyan.com/board/4?offset='+str(i*10)
        html = getHtml(url, headers=headers)
        print("正在打印第%s页" % (i+1))
        fillList(html)

if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/weixin_38196258/article/details/79889023

使用requests和xpath爬取猫眼TOP100电影

requests和lxml爬取猫眼电影TOP100

requests爬取猫眼电影top100

爬取猫眼电影Top100

猫眼电影Top100爬取

利用requests和正则爬取猫眼电影top100榜单

python：猫眼电影TOP100的电影爬取

Python爬取猫眼电影排行TOP100的电影

爬取猫眼电影top100电影

python3.6 利用requests和正则表达式爬取猫眼电影TOP100

利用requests和正则表达式re爬取猫眼电影top100，并下载图片

笔记：Requests+正则爬取猫眼电影top100

【Python】Requests+正则表达式爬取猫眼电影TOP100

Requests+正则表达式爬取猫眼TOP100电影

爬取猫眼电影榜单Top100—利用requests、正则表达式

requests+re+multiprocessing爬取猫眼电影top100

requests+正则表达式爬取猫眼电影TOP100

python爬虫-利用requests库爬取猫眼电影top100

7.5爬取猫眼Top100电影名单

爬取猫眼电影TOP100榜

爬取猫眼电影top100信息

python爬虫爬取猫眼电影Top100

爬虫练习 | 爬取猫眼电影Top100

python爬虫，爬取猫眼电影top100

python爬取猫眼电影top100

python应用-爬取猫眼电影top100

爬虫六之爬取猫眼电影top100

python爬取猫眼电影的Top100

python爬虫入门 ✦ 爬取猫眼电影Top100

python爬虫入门 ✦ 爬取猫眼电影Top100

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)