python爬虫之提取糗事百科首页的内容 - 代码天地

python爬虫之提取糗事百科首页的内容

其他 2020-04-11 11:39:41 阅读次数: 0

'''
糗事百科首页内容爬取
类的使用
'''

# 导入第三方库
import requests
from lxml import etree


# 定义糗事百科爬虫的类
class QiuShiSpider():
    # 初始化对象
    def __init__(self):
        self.start_url = "http://www.qiushidabaike.com/index_1.html"
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36"}

    # 定义得到html文本的方法
    def get_html(self, url):
        response = requests.get(url, headers=self.headers).content.decode()
        return response

    # 定义解析html文本的方法
    def paser_html(self, response):
        e = etree.HTML(response)
        content = e.xpath('//dd[@class="content"]/p/text()')
        return content

    # 定义保存文本的方法
    def save_joke(self, content):
        with open("joke.txt", "a", encoding="utf-8") as f:
            for content in content:
                f.write(content)
                f.write('\r\n')

    # 定义运行函数，实现主要逻辑
    def run(self):
        url = self.start_url
        content = self.get_html(url)
        joke = self.paser_html(content)
        self.save_joke(joke)


# 程序运行接口
if __name__ == '__main__':
    qiushi = QiuShiSpider()
    qiushi.run()

warm...

发布了44 篇原创文章 · 获赞 16 · 访问量 2385

私信关注

猜你喜欢

转载自blog.csdn.net/qq_46292926/article/details/104983228

python爬虫之提取糗事百科首页的内容

python爬虫之提取糗事百科前5页的内容

python爬虫基础案例之糗事百科

Python 之糗事百科多线程爬虫案例

python 糗事百科爬虫

python爬虫-糗事百科段子

python糗事百科爬虫

python-爬虫-糗事百科

糗事百科爬虫

爬虫糗事百科

python爬虫之爬取糗事百科并将爬取内容保存至Excel中

【Python】数据提取xpath和lxml模块（糗事百科的爬虫）

八、多线程爬虫之糗事百科案例

下载糗事百科的内容_python版

python抓取糗事百科文字内容

python爬虫入门实战（一）---爬糗事百科

python爬虫（二）爬取糗事百科

使用python写糗事百科的爬虫

Python3~xpath应用糗事百科爬虫

Python3爬虫糗事百科最新可用

python 初学网络爬虫（糗事百科段子）

爬虫：python爬取糗事百科网页信息

Python爬虫(十七)_糗事百科案例

Python爬虫(十八)_多线程糗事百科案例

【Python3.6】糗事百科爬虫

python爬虫1、~爬取糗事百科

python爬虫练手--糗事百科图片获取

【Scrapy框架】糗事百科段子获取python 爬虫

芝麻HTTP:Python爬虫实战之爬取糗事百科段子

Python爬虫之糗事百科段子写入MySQL数据库

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)