1.4举个栗子——爬起lol贴吧网页源码（可以修改爬取贴吧名字） - 代码天地

1.4举个栗子——爬起lol贴吧网页源码（可以修改爬取贴吧名字）

其他 2020-01-30 10:16:48 阅读次数: 0

#coding:utf-8
#file: tieba.py
#@author: young
#@contact: [email protected]
#@time: 2019/12/22 14:44
# coding=utf-8
import requests

class TiebaSpider:
    def __init__(self, tieba_name):
        self.tieba_name = tieba_name
        self.url_temp = "https://tieba.baidu.com/f?kw=" + tieba_name + "&ie=utf-8&pn={}"
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"}

    def get_url_list(self):  # 1.构造url列表
         url_list = []
         for i in range(1000):
             url_list.append(self.url_temp.format(i*50))
         return url_list
        # return [self.url_temp.format(i * 50) for i in range(1000)]

    def parse_url(self, url):  # 发送请求，获取响应
        # print(url)
        response = requests.get(url, headers=self.headers)
        return response.content.decode()

    def save_html(self, html_str, page_num):  # 保存html字符串
        file_path = "{}—第{}页.html".format(self.tieba_name, page_num)
        with open(file_path, "w", encoding="utf-8") as f:  # "李毅—第4页.html"
            f.write(html_str)

    def run(self):  # 实现主要逻辑
        # 1.构造url列表
        url_list = self.get_url_list()
        # 2.遍历，发送请求，获取响应
        for url in url_list:
            html_str = self.parse_url(url)
            # 3.保存
            page_num = url_list.index(url) + 1  # 页码数
            self.save_html(html_str, page_num)

if __name__ == '__main__':
    tieba_spider = TiebaSpider("lol")
    tieba_spider.run()

在这里插入图片描述显示一部分

发布了60 篇原创文章 · 获赞 8 · 访问量 3307

私信关注

猜你喜欢

转载自blog.csdn.net/qq_43476433/article/details/103653631

1.4举个栗子——爬起lol贴吧网页源码（可以修改爬取贴吧名字）

爬取贴吧

贴吧爬取

python：爬取贴吧的某个吧的网页信息

爬取贴吧页面

爬取贴吧图片

爬取贴吧数据

贴吧小爬虫之爬取源码

用python爬取贴吧数据

Python实现爬取贴吧图片

爬取贴吧小项目

简单的爬取贴吧案例

urllib:爬取贴吧静态数据

爬虫Spider--爬取贴吧

python爬取贴吧图片

爬虫（四）：简单爬取贴吧

爬取贴吧热议榜

爬贴吧

Python3-网页爬取-批量爬取贴吧页面数据

爬取贴吧图片（静态网页）【bs解析网页+re正则匹配】

Python爬取贴吧内容-南华大学贴吧为例

爬取百度贴吧html网页HTML代码，爬虫案例

爬取贴吧网页保存到本地文件夹中

利用爬虫爬取百度贴吧内容

python爬虫四：爬取贴吧数据

urllib爬取百度贴吧贴子页面

ulrlib案例-爬取百度贴吧

python爬取百度贴吧张国荣图片

python爬虫爬取百度贴吧图片

Python爬取百度贴吧图片

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)