python爬虫-使用IP代理爬取豆瓣读书图书信息

其他 2019-04-09 02:59:49 阅读次数: 0

python爬虫-使用IP代理爬取豆瓣读书图书信息

from urllib import request
from bs4 import BeautifulSoup

book.douban.com

if __name__ == '__main__':
    for i in range(1, 5):
        url = 'https://market.douban.com/book/?utm_campaign=book_nav_freyr&utm_source=douban&utm_medium=pc_web'+'&page='+str(i)+'&page_num=18&'
         #这是代理IP,请自行输入购买的ip地址和端口号
        proxy = {'http':'ip:port'}
        #创建ProxyHandler
        proxy_support = request.ProxyHandler(proxy)
        #创建Opener
        opener = request.build_opener(proxy_support)
        #添加User Angent
        opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36')]
        #安装OPener
        request.install_opener(opener)
        #使用自己安装好的Opener
        response = request.urlopen(url)
        #读取相应信息并解码
        html = response.read().decode("utf-8")
        #将html转换成beautifulsoup格式
        soup = BeautifulSoup(html, 'lxml')
        #打印信息
        #print(html)
        # content = requests.get().text
		#使用beautifulsoup的find_all查找标签为li 属性class=book-item的所有内容
        pid = soup.findAll('li', {'class': 'book-item'})
        for terms in pid:
            book_herf = terms.a['href']
            book_price = terms.i.string
            book_title = terms.h3.string
            book_describe = terms.p.string
            print(book_title+","+book_describe+","+book_price+","+book_herf)
            print(50*"-")

猜你喜欢

转载自blog.csdn.net/smsmtiger/article/details/88994982

python爬虫-使用IP代理爬取豆瓣读书图书信息

爬取豆瓣读书的图书信息和评论信息

Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

Python爬取豆瓣图书信息学习记录

Python爬虫——豆瓣下图书信息

爬取豆瓣图书首页的图书信息

python采用requests+bs4爬取豆瓣top250图书信息

【python爬虫实例】爬取豆瓣图书及信息

Python爬虫实战+Scrapy框架爬取当当网图书信息

爬取豆瓣图书网站的图书信息，并生成xlsx文档

JD图书信息爬取

爬取豆瓣上某个用户标记的想读的图书信息

[Python爬虫]爬虫实例:在线爬取当当网畅销书Top500的图书信息

[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息

python爬虫，爬取豆瓣电影信息

python爬虫爬取豆瓣电影信息

python爬虫 — 爬取豆瓣最受关注图书榜

python3+Scrapy爬虫实战（三） —— 使用代理IP，爬取“去哪儿”景点信息

第一个爬虫——豆瓣新书信息爬取

Python Scrapy爬虫实战（1）：豆瓣网站图书信息案例- Scrapy初体验

python爬虫练习之爬取豆瓣读书所有标签下的书籍信息

爬虫之爬取豆瓣图书的评论

Python爬虫：爬取免费代理ip

【python爬虫】爬取ip代理池

Python爬取豆瓣读书

Python爬虫使用lxml模块爬取豆瓣读书排行榜并分析

Python爬取当当、京东、亚马逊图书信息代码实例

Python爬虫入门 | 2 爬取豆瓣电影信息

python爬虫爬取豆瓣书籍信息并生成表格

Python爬虫-爬取豆瓣信息(selenium+xpath)

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)