经典爬虫学习（一）-百度贴吧爬取案例

其他 2019-04-05 08:41:04 阅读次数: 0

本案例使用传统的request库对百度贴吧进行多页面标题信息爬取，为经典的get访问格式，值得读者细看。

# coding=utf-8
import requests


class TiebaSpider:
    def __init__(self, tieba_name):
        self.tieba_name = tieba_name
        self.url_temp = "https://tieba.baidu.com/f?kw=" + tieba_name + "&ie=utf-8&pn={}"
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

    def get_url_list(self):  # 1.构造url列表
        # url_list = []
        # for i in range(1000):
        #     url_list.append(self.url_temp.format(i*50))
        # return url_list

        return [self.url_temp.format(i * 50) for i in range(1000)]#通过列表推导式实现url构造（嵌套不如扁平）

    def parse_url(self, url):  # 发送请求，获取响应
        print(url)
        response = requests.get(url, headers=self.headers)
        return response.content.decode()

    def save_html(self, html_str, page_num):  # 保存html字符串
        file_path = "{}—第{}页.html".format(self.tieba_name, page_num)
        with open(file_path, "w", encoding="utf-8") as f:  # 输出保存的网页内容
            f.write(html_str)

    def run(self):  # 实现主要逻辑
        # 1.构造url列表
        url_list = self.get_url_list()
        # 2.遍历，发送请求，获取响应
        for url in url_list:
            html_str = self.parse_url(url)
            # 3.保存
            page_num = url_list.index(url) + 1  # 页码数
            self.save_html(html_str, page_num)


if __name__ == '__main__':
    tieba_spider = TiebaSpider("lol")
    tieba_spider.run()

猜你喜欢

转载自blog.csdn.net/hot7732788/article/details/89003514

经典爬虫学习（一）-百度贴吧爬取案例

爬虫学习（五）————百度贴吧的爬取

利用爬虫爬取百度贴吧内容

python爬虫爬取百度贴吧图片

python爬虫爬取百度贴吧帖子

爬虫实战--爬取百度贴吧

爬虫实现百度贴吧的图片爬取

ulrlib案例-爬取百度贴吧

学习笔记（爬虫）：爬取百度贴吧，美女吧图片

爬虫小案例爬取百度贴吧杨幂图片 xpath 美丽汤

爬取百度贴吧html网页HTML代码，爬虫案例

03 爬虫案例之爬取百度贴吧

python学习笔记--爬取百度贴吧

python 爬虫（一）爬取百度贴吧图片

Python爬虫(一)爬百度贴吧

Python爬虫实战，简单的爬虫案例，以及爬取百度贴吧网页原码和360翻译

爬虫小案例爬取百度贴吧赵丽颖图片案例 xpath 美丽汤

PHP爬虫-爬取百度贴吧首页违规主题贴

Python爬虫小程序，爬取百度贴吧网页文件，新手练手的好案例

爬虫---实现爬取百度贴吧（海贼王吧）

分享一个能爬取所有百度贴吧图片的爬虫代码

芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子

Python3爬虫爬取百度贴吧

[Python爬虫之路2]爬取百度贴吧内容

Python爬虫系列之百度贴吧爬取

python爬虫爬取百度贴吧（入门练习）

实战python 爬虫爬取百度贴吧图片

Python爬虫【实战篇】百度贴吧爬取页面存到本地

爬虫小程序之爬取百度贴吧图片

Python爬虫之简单的爬取百度贴吧数据

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)