python 使用requests模块,爬取百度贴吧内容 - 代码天地

python 使用requests模块,爬取百度贴吧内容

其他 2020-10-25 03:35:17 阅读次数: 0

爬取百度贴吧

import requests
from lxml import etree
import json

class TiebaSpider(object):
    def __init__(self,name):
        self.name = name
        self.url = 'http://tieba.baidu.com/mo/q----,sz@320_240-1-3---2/m?kw='+name+'&lp=5011&lm=&pinf=1&pn=0'
        # 请求头
        self.headers = {
            'User-Agent':'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1'
        }
        self.prefix_url = 'http://tieba.baidu.com/mo/q----,sz@320_240-1-3---2/'
    def get_page_from_url(self,url):
        """ 发送请求, 获取页面数据"""
        response = requests.get(url,headers=self.headers)
        return response.content
    def get_data_from_page(self,page):
        element = etree.HTML(page)
        a_s = element.xpath('//div[contains(@class,"i")]/a')
        data_list = []
        for a in a_s:
            data = {}
            data['title'] = a.xpath('./text()')[0]
            data['url'] = self.prefix_url + a.xpath('./@href')[0]
            data_list.append(data)
        next_url = element.xpath('//a[text()="下一页"]/@href')
        if len(next_url) != 0:
            next_url = self.prefix_url + next_url[0]
        else:
            next_url = None
        return data_list,next_url

    def save_data(self,data_list):
        """保存数据  """
        file_name = "{}.jsonlines".format(self.name)
        with open(file_name,'a',encoding='utf8') as f:
            for data in data_list:
                json.dump(data,f,ensure_ascii=False)
                f.write('\n')
    def run(self):
        url = self.url
        # 循环每一页
        while url:
            # 发送请求, 获取页面数据
            page = self.get_page_from_url(url)
            # 提取数据(xpath)
            data_list,url = self.get_data_from_page(page)
            # 保存数据
            self.save_data(data_list)

if __name__ == '__main__':
    tbs = TiebaSpider('刘亦菲')		# 刘亦菲可以替他明星
    tbs.run()

有问题请留言

猜你喜欢

转载自blog.csdn.net/weixin_43407092/article/details/88429297

python 使用requests模块,爬取百度贴吧内容

python爬取百度贴吧指定内容

Python爬取百度贴吧内容

python爬虫爬取百度贴吧图片，requests方法

python 爬虫（二）requests模块的介绍 + 基于requests模块的get请求和post请求 + 相关爬取案例（百度贴吧 + 百度产品 + 有道翻译 + 百度翻译）

[Python爬虫之路2]爬取百度贴吧内容

Python 基础语法+简单地爬取百度贴吧内容

【Python真的很强大】使用scrapy爬取百度贴吧-上海吧

python爬取百度贴吧张国荣图片

python爬虫爬取百度贴吧图片

Python爬取百度贴吧图片

python学习笔记--爬取百度贴吧

python爬取百度贴吧Jpg图片

python爬虫爬取百度贴吧帖子

python百度贴吧爬取

从零开始写Python爬虫 --- 1.4 爬取生活大爆炸百度贴吧内容

Python 爬百度贴吧里面的图片分页分帖子爬取

【Python网络编程】爬取百度贴吧、小说内容、豆瓣小说、Ajax爬微博、多线程爬淘宝

芝麻HTTP:Python爬虫实战之爬取百度贴吧帖子

python 爬虫（一）爬取百度贴吧图片

13-爬取百度贴吧中的图片（python+xpath）

python 爬取百度贴吧美图和文字

Python3爬虫爬取百度贴吧

Python爬虫系列之百度贴吧爬取

实战python 爬虫爬取百度贴吧图片

Python爬取百度贴吧回帖中的微信号（基于简单http请求）

python爬虫爬取百度贴吧（入门练习）

Python爬虫【实战篇】百度贴吧爬取页面存到本地

Python爬虫之简单的爬取百度贴吧数据

案例关于python百度贴吧图片爬取教程！

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)