python爬虫-爬取壁纸酷主页内容 - 代码天地

python爬虫-爬取壁纸酷主页内容

其他 2018-10-06 09:19:57 阅读次数: 0

1.网页分析

这里用jpg作为后缀的网址就是我们最后需要的二进制文件。

2.代码实现

import requests
import re
from bs4 import BeautifulSoup
from contextlib import closing


target_url = "http://www.bizhiku.net"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
                'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
                'Referer': 'http://www.xicidaili.com/nn/',
                'Accept-Encoding': 'gzip, deflate, sdch',
                'Accept-Language': 'zh-CN,zh;q=0.8',
               }


def geturllist():

    rsp = requests.get(url=target_url, headers=headers)
    bs = BeautifulSoup(rsp.text, "lxml")
    a_list = bs.find_all('a', attrs={'target': '_blank', 'href': re.compile(r'^/wallpaper/\d+'), 'class': 'pic'})
    url_list = []
    for item in a_list:
        url_list.append(target_url+item["href"])
    return url_list


def parseurl(list):
    number = 0
    for item in list:
        rst = requests.get(item, headers=headers)
        bs = BeautifulSoup(rst.text, "lxml")
        bigurl = bs.find("img", attrs={"id": "bigimg"})
        img_url = target_url + bigurl['src']
        with closing(requests.get(url=img_url, stream=True, verify=False, headers=headers)) as r:
            with open("{}.jpg".format(number), 'ab+') as f:
                print("正在获得第{}个图片".format(number))
                for chunk in r.iter_content(chunk_size=1024):
                    if chunk:
                        f.write(chunk)
                        f.flush()
        number += 1
        import time
        time.sleep(1)


if __name__ == '__main__':
    l = geturllist()
    parseurl(l)

3.效果展示

猜你喜欢

转载自blog.csdn.net/zhouchen1998/article/details/82502404

python爬虫-爬取壁纸酷主页内容

python爬虫爬取wallpapers最新壁纸

python爬虫：爬取微博主页

Python3-爬虫登录开心网的账号，并且爬取个人主页内容

python爬虫，爬取彼岸网高清唯美壁纸

python爬虫简单爬取爱思助手壁纸

Python爬虫爬取新浪新闻内容

python 爬取汽车壁纸

python爬虫爬取酷狗音乐排行榜

python爬虫教程：爬取酷狗音乐

多进程爬虫python——实例爬取酷狗歌单

Python爬虫:运用json数据爬取酷我音乐

爬虫爬取大量高清壁纸图片

爬虫爬取桌面壁纸

【初学python爬虫01】Python3用selenium动态爬取美图壁纸

python爬取Clash Royale高清壁纸

Python：王者荣耀壁纸爬取

python爬取超高清壁纸

python爬取壁纸图片到本地

python学习（三）scrapy爬虫框架（三）——爬取壁纸保存并命名

python爬虫系列（2）：分析Ajax 爬取搜狗高清壁纸

python3.x简单爬虫（爬取百度壁纸图片下载本地）

爬虫实战| Python爬取英雄联盟、王者荣耀、阴阳师、绝地求生高清壁纸

【python】爬虫爬取美丽小姐姐图片美女壁纸

Python3网络爬虫实战解析——优美壁纸爬取

Python爬虫教程-爬取5K分辨率超清唯美壁纸源码

python爬虫之爬取壁纸（新手入门级）

Python爬虫带你一键爬取王者荣耀英雄皮肤壁纸

Python爬虫新手入门教学（十三）：爬取高质量超清壁纸

Python爬虫实战 | 利用多线程爬取 LOL 高清壁纸

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)