爬虫学习之6：使用XPATH爬取豆瓣TOP500书籍(保存到CSV) - 代码天地

爬虫学习之6：使用XPATH爬取豆瓣TOP500书籍(保存到CSV)

其他 2018-07-24 05:10:20 阅读次数: 0

豆瓣读书TOP500页面如下，爬取每本书的书名、作者、出版社、出版日期、价格、星级和评论数。代码简单，本着先抓大、后抓小、寻找循环点的原则编写代码即可，直接附上不做解释。

from lxml import etree
import requests
import csv

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
}
fp = open('douban.csv','w+',newline='',encoding='utf-8-sig')
writer = csv.writer(fp)
writer.writerow(('书名','链接','作者','出版社','出版日期','价格','星级','评论数'))
urls = ['https://book.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]
for url in urls:
    html = requests.get(url)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//tr[@class="item"]')
    for info in infos:
        name = info.xpath('td/div/a/@title')[0]
        url = info.xpath('td/div/a/@href')[0]
        book_infos = info.xpath('td/p/text()')[0]
        author = book_infos.split('/')[0]
        publisher = book_infos.split('/')[-3]
        date = book_infos.split('/')[-2]
        price = book_infos.split('/')[-1]
        rate = info.xpath('td/div/span[2]/text()')[0]
        comments = info.xpath('td/div/span[3]/text()')
        comment = comments[0] if len(comments)!=0 else "空"
        writer.writerow((name,url,author,publisher,date,price,rate,comment))
fp.close()

结果保存到CSV中，由于使用了utf-8-sig编码，不会乱码，部分结果如下：

猜你喜欢

转载自blog.csdn.net/cskywit/article/details/80877994

爬虫学习之6：使用XPATH爬取豆瓣TOP500书籍(保存到CSV)

爬取豆瓣top500电影

爬虫学习之4：BeautifulSoup爬取酷狗Top500歌曲

使用xpath爬取酷狗TOP500的歌曲信息

【爬虫入门5】爬取酷狗TOP500

python爬虫——爬取酷狗音乐top500(BeautifulSoup使用方法)

爬虫学习之7：使用XPATH爬取起点小说网小说信息(保存到EXCEL)

实例学习——爬取酷狗TOP500数据

Python爬虫学习6：scrapy入门（一）爬取汽车评论并保存到csv文件

python爬虫(七、完整爬取豆瓣top250保存到excel)

python爬取豆瓣读书保存到csv

[Python爬虫]爬虫实例:爬取酷狗TOP500的数据

python爬取猫眼电影 top 100 保存到CSV

Python爬虫学习笔记(2) _豆瓣电影TOP250(2)爬取详细数据，保存为CSV文件【urllib、request、bs4、error、CSV】

Matlab 爬虫 Web Scraping with Matlab 02--爬取酷狗TOP500的数据

爬虫程序2-爬取酷狗top500

python网络爬虫-爬取酷狗TOP500的数据源码

Java也能做爬虫了？我爬取并下载了酷狗TOP500的歌曲！

爬虫项目3[爬取酷狗音乐Top500歌名]

爬虫实践小例子爬取书籍保存到本地

2019-11-11 爬网页3-爬取豆瓣电影信息保存到csv(python2.7，静态页面。requests/bs4/lxml/xpath）

【Python爬虫】xpath爬取+保存至csv/xlsx文件

爬取酷狗音乐Top500

爬取酷狗榜单中的top500

java爬取并下载酷狗TOP500歌曲

Python爬取酷狗音乐TOP500榜单

【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影，最后以csv文件保存，附源码

[Python爬虫]爬虫实例:在线爬取当当网畅销书Top500的图书信息

[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息

xpath爬取豆瓣电影Top250写入csv文件

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)