爬虫实例：当当网书籍介绍 - 代码天地

爬虫实例：当当网书籍介绍

其他 2018-12-20 20:14:38 阅读次数: 0

import json
import re
import requests
from requests import RequestException


def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            # print('2sas')
            print(response.text)
            return response.text
        return None
    except RequestException:
        return None

def parse_one_page(html):
    #  加上re.S后, .将会匹配换行符
    pattern = re.compile('<li>.*?list_num.*?>(.*?)</div>.*?pic.*?src="(.*?)".*?/></a>.*?name"><a.*?title="(.*?)">.*?tuijian">(.*?)</span>.*?publisher_info.*?title="(.*?)".*?biaosheng.*?<span>(.*?)</span>.*?</li>',re.S)
    items = re.findall(pattern,html)
    for item in items:
        yield {
            'index':item[0],
            'iamge':item[1],
            'title':item[2],
            'tuijian':item[3],
            'author':item[4],
            'times':item[5],
        }

def write_content_to_file(content):
    with open('book.txt', 'a', encoding='UTF-8') as f:
        f.write(json.dumps(content, ensure_ascii=False) + '\n')
        f.close()

def main(page):
    url = "http://bang.dangdang.com/" \
          "books/fivestars/01.00.00.00.00.00-recent30-0-0-1-" + str(page)
    html = get_one_page(url)
    parse_one_page(html)
    for item in parse_one_page(html):
        print(item)
        write_content_to_file(item)

if __name__ == "__main__":
    for i in range(1,2):
        main(i)

猜你喜欢

转载自www.cnblogs.com/chenzhuantou/p/10151877.html

爬虫实例：当当网书籍介绍

爬虫爬当当网书籍信息

python当当网爬虫

scrapy 当当网爬虫

Python |（爬虫）爬取当当网书籍信息存到Excel中

爬虫及数据分析--当当网

（转载）当当网开源的 dubbox 介绍

scrapy 当当网书籍信息爬取存储MySQL

当当网

当当网图书

[Python爬虫]爬虫实例:在线爬取当当网畅销书Top500的图书信息

[Python爬虫]爬虫实例:离线爬取当当网畅销书Top500的图书信息

【转】java爬虫，爬取当当网数据

爬虫基本原理介绍和初步实现（以抓取当当网图书信息为例）

python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍

python第一个爬虫，爬取当当网 Top 500 本五星好评书籍

你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍！

python爬取当当网的书籍信息并保存到csv文件

爬取当当网 Top 500 本五星好评书籍

Scrapy爬虫（5）爬取当当网图书畅销榜

分布式爬虫----当当网图书数据爬取

利用python爬虫可视化分析当当网的图书数据！

基于Scrapy框架的当当网编程开发图书定向爬虫

爬虫项目实战十一：爬取当当网商品信息

Python爬虫实战+Scrapy框架爬取当当网图书信息

当当网 / sharding-jdbc

当当网的elastic-job

dubbox 当当网编写下载

纪念逝去的当当网

自写当当网1

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)