python3爬虫实践(正则+xpath 站长素材免费简历模板爬取) - 代码天地

python3爬虫实践(正则+xpath 站长素材免费简历模板爬取)

编程语言 2020-09-07 13:07:58 阅读次数: 0

import requests
from lxml import etree
import re
import os


def url_values():
    tree = etree.HTML(response)
    list_jianli_Download_page = tree.xpath(("//div[@class='bggray clearfix pt20']/div[3]//div[@id='container']/div"))
    # print(len(list_jianli_Download_page))
    for url in list_jianli_Download_page:
        jump_url.append(url.xpath('./a/@href')[0])


def Download_page():
    for downlaodurl in jump_url:
        response = requests.get(url=downlaodurl,headers=headers).text
        tree = etree.HTML(response)
        rex = "http://.*?.rar"
        re_value = re.findall(rex,response)
        downlaod_url.append(re_value[0])
        # download_url = tree.xpath('//div[@class="bggray clearfix"]/div[2]//div[@class="down_wrap"]/div[2]/ul/li/a/@href')
        name = tree.xpath('//div[@class="ppt_tit clearfix"]/h1/text()')[0]
        file_name.append(name.encode("iso-8859-1").decode("utf-8")+'.rar')


def get_file():
    a = 0
    for name,url in zip(file_name,downlaod_url):
        file = requests.get(url=url,headers=headers).content
        if requests.get(url=url,headers=headers).status_code == 200:
            a = a + 1
        else:
            print(f"文件{filename}下载失败")
            continue
        filename = "简历模板/"+ name
        with open(filename,'wb') as fp:
            fp.write(file)
            print("下载完成",filename,a)


if __name__ == "__main__":
    jump_url = []
    downlaod_url = []
    file_name = []
    if not os.path.exists('./简历模板'):
        os.mkdir('./简历模板')
    url = "http://sc.chinaz.com/jianli/free.html"
    headers = {
        "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36"}
    response = requests.get(url=url,headers=headers).text
    url_values()
    Download_page()
    print(len(downlaod_url))

笔记思路入门参考

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/kingoflongevity/article/details/108430861

python3爬虫实践(正则+xpath 站长素材免费简历模板爬取)

python3爬取站长素材简历模板详解

xpath爬取站长素材中的免费简历

使用xpath解析站长素材_免费简历模板

小项目爬虫爬取图片 --站长素材网

python3爬虫学习之lxml与xpath实战爬取豆瓣热映

Python爬取设计素材网站，免费使用素材，花钱不存在花钱的

python3网络爬虫开发实战学习笔记(二)------python3 XPATH爬猫眼电影排名

Python爬虫教程：包图网免费付费素材爬取！

python3爬虫入门(正则+requests 糗事百科单页图片爬取)

python3爬虫入门(正则+requests 糗事百科多页图片爬取)

scrapy爬取站长素材

Python3爬虫实践--网易科技滚动新闻爬取

【Python爬虫】爬取ppt素材

1-11 requests模块之爬取简历模板（xpath解析）

【python3爬虫系列】问题一：去西刺爬取免费可用的代理（用requests爬取）

Python爬虫之xpath 开启多线程爬取素材网图片-xpath应用、多线程应用、批量下载

【Python3 爬虫】U20_正则表达式爬取古诗文网

简易python爬虫 - 爬取站长论坛信息

【python爬虫实战】批量爬取站长之家的图片

python3爬虫系列12之lxml+xpath和BeautifulSoup+css selector不同方式tiobe网站爬取

Python爬虫-爬取扇贝单词(Xpath)

《PYTHON3网络爬虫开发实践》——第六章 Ajax数据爬取

【Python3 爬虫】17_爬取天气信息

python3 --小爬虫（爬取美剧字幕）

python3爬虫爬取网页图片简单示例

Python3 爬虫实战（并发爬取）

python3爬虫之二：爬取网页图片

python3爬虫爬取煎蛋网妹纸图片

python3 爬虫爬取blog内容

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)