python爬虫学习（十五）xpath模板下载 - 代码天地

python爬虫学习（十五）xpath模板下载

其他 2020-03-26 15:02:02 阅读次数: 0

# -*- coding: utf-8 -*-
import requests
from lxml import etree
import os
if __name__ == '__main__':
     headers = {
         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'
     }
     url='http://sc.chinaz.com/jianli/free.html'
     page_text=requests.get(url=url,headers=headers).text
     tree = etree.HTML(page_text)
     div_list=tree.xpath('//div[@id="main"]/div/div')

     if not os.path.exists('./muban'):
         os.mkdir('./muban')

     url_list=[]
     name_list=[]
     for div in div_list:

         muban_href= div.xpath('./a/@href')[0]
         #print(muban_href)
         download_url = requests.get(url=muban_href,headers=headers).text
         #print(download_url)
         download_tree = etree.HTML(download_url)
         name=download_tree.xpath('//div[@class="bread clearfix"]/a[3]/text()')[0]+'.rar'
         download_name = name.encode('iso-8859-1').decode('utf-8')
         #print(download_name)
         download_url = download_tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li[1]/a/@href')
         url_list.append(download_url)
         name_list.append(download_name)

     for name,url in zip(name_list,url_list):
         print(name,url)

发布了23 篇原创文章 · 获赞 0 · 访问量 666

私信关注

猜你喜欢

转载自blog.csdn.net/haimian_baba/article/details/103820485

python爬虫学习（十五）xpath模板下载

python爬虫-简单使用xpath下载图片

python 爬虫（xpath解析网页，下载照片）

python爬虫学习之XPath基本语法

Python爬虫学习笔记（四）————XPath解析

xpath下载安装——Python爬虫xpath插件下载安装（2023.7亲测可用！！）

python爬虫系列之 xpath实战：批量下载壁纸

python爬虫-XPath实例——批量下载高清壁纸

Python爬虫-xpath

python 爬虫 XPath

python爬虫xpath的语法

python爬虫 xpath使用

python爬虫---XPath介绍

python爬虫(二)-------------------Xpath

python爬虫教程：Xpath

python爬虫xpath教程

python笔记(爬虫 xpath)

Python爬虫--Xpath（二）

Python爬虫--Xpath

【python爬虫】Xpath

python爬虫基础 - XPATH

python爬虫之xpath

Python爬虫：xpath解析

python爬虫-xpath解析

python爬虫学习test2-学习beautifulsoup、学习xpath

python爬虫之Xpath和lxml学习笔记03

xpath语法和lxml模块（数据提取）----python爬虫学习

Python爬虫基础——XPath语法的学习与lxml模块的使用

Python爬虫学习笔记(XPath选择器【推荐】)

python爬虫学习（十四）xpath获取不同标签城市名

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)