爬虫实践小例子爬取书籍保存到本地 - 代码天地

爬虫实践小例子爬取书籍保存到本地

其他 2019-09-10 20:11:14 阅读次数: 0

爬虫实践小例子

import requests,os
from urllib import request
from lxml import etree

dirName = './books'
if not os.path.exists(dirName):
    os.mkdir(dirName)

headers={
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}

url = 'http://www.shicimingju.com/book'

page_text = requests.get(url,headers=headers).text   

# print(page_text)

tree = etree.HTML(page_text)
a_list = tree.xpath('//div[@class="bookmark-list"]//a')   
for a in a_list:
    bookname = a.xpath('./text()')[0]
    book_path = "http://www.shicimingju.com" + a.xpath('./@href')[0]
    #print(bookname,book_path) # 不取第一个元素的话返回的是列表   ['三国演义'] ['/book/sanguoyanyi.html']
    book_page = requests.get(book_path,headers=headers).text
    tree = etree.HTML(book_page)
    book_a_list = tree.xpath('//div[@class="book-mulu"]//a')
    path = dirName + '/' + bookname
    with open(path,'w',encoding='utf-8') as f:
        for a in book_a_list:
            title = a.xpath('./text()')[0]
            detail_path = 'http://www.shicimingju.com'+a.xpath('./@href')[0]
            detail_page = requests.get(detail_path,headers=headers).text
            content = etree.HTML(detail_page).xpath('//div[@class="chapter_content"]//text()')
            content = ''.join(content)
            f.write(title+':' + content + '\n')
            
            print(title,"下载成功")

猜你喜欢

转载自www.cnblogs.com/he-qing-qing/p/11502543.html

爬虫实践小例子爬取书籍保存到本地

python爬虫爬取图片并保存到本地

python爬虫爬取图片保存到本地文件

爬虫爬取《全职法师》并保存到本地

爬取图片实例python爬虫（保存到本地）

爬虫学习之6：使用XPATH爬取豆瓣TOP500书籍(保存到CSV)

[python爬虫]爬取今日头条，例子：街拍将图片存到本地文件夹里

scrapy爬虫系列之三--爬取图片保存到本地

node.js 爬虫实现爬取网页图片并保存到本地

学习笔记（爬虫）：爬取古诗网站，获取每一篇古诗，并保存到本地

爬虫小例子

python爬虫实践——爬取豆瓣电影

python爬虫实践——爬取“梨视频”

Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量

Python爬虫之路-爬取在线课程并保存到Excel

python 爬虫之爬取网站信息并保存到文件

【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地

python爬虫实战一、爬取酷我音乐榜单并写入txt文件保存到本地

Python爬虫之网易云音乐歌曲歌词爬取并保存到本地（详解分析+代码实现）

Python爬虫：爬取某鱼颜值主播图片并保存到本地升级版！

Python爬虫爬取网页的例子

Python3_爬虫实践（爬取电子书）

python爬虫实践——爬取百度首页

python爬虫实践——爬取豆瓣书本头250

爬虫实践--豆瓣电影当前上映电影信息爬取

爬虫入门实践之使用Urllib爬取网页

爬虫入门实践之爬取虎扑论坛帖子

python爬虫实践——爬取“豆瓣top250”

爬虫实践---新浪微博爬取+json+csv

【爬虫实践】中文突发事件新闻爬取实例

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)