类装饰器爬取段子 - 代码天地

类装饰器爬取段子

其他 2020-03-22 16:21:16 阅读次数: 0

import requests
from lxml import etree


class Request(object):
    """请求类"""

    def __init__(self, func):
        self.func = func

    def __call__(self, url, headers, data=None):
        resp = requests.get(url, headers=headers)
        resp.encoding = resp.apparent_encoding  # 设置响应的编码
        content = resp.text
        self.func(content)


@Request # get_content=Request(get_content) 对象是否可调用取决于__call__
def get_content(content):
	"""解析网页内容"""
    htm = etree.HTML(content)
    div_list = htm.xpath('//div[@class="one-cont"]')
    for div in div_list:
        item  = dict()
        item["nick_name"] = div.xpath('.//i/text()')[0]
        item['href'] = ''.join(['https://www.xiaohua.com',div.xpath('.//a/@href')[0]])
        item['con']= div.xpath('.//p[@class="fonts"]/a/text()')[0]
        print(item)
num = 1
while num <=100:
    url = f"https://www.xiaohua.com/duanzi/?page={num}"
    headers = {'User-Agent': "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50"}
    get_content(url, headers=headers)
    num+=1

go_flush

发布了127 篇原创文章 · 获赞 25 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_44224529/article/details/104235815

类装饰器爬取段子

python爬虫（爬取段子）

Reptile：requests + Xpath 爬取段子网的段子

python内涵段子爬取练习

内涵段子爬取及re匹配

爬取糗事本科的段子信息

爬取糗事百科段子

糗事百科段子爬取

使用xpath技术爬取段子网

使用Scrapy 框架爬取段子（入门）

NO.33——XPath选择器爬取糗事百科段子

装饰器装饰类

Python 爬取糗事百科段子

Python网络爬虫与如何爬取段子的项目实例

python爬取糗事百科段子

利用Python爬取糗事百科段子信息

爬虫实战（二）：爬取糗事百科段子

用BeautifulSoup爬取糗事百科段子

python爬虫之爬取捧腹网段子

Python :爬取糗事百科段子

Java爬取糗百段子

python爬虫--正则爬取内涵段子文字

好段子网站任意页数爬取

python爬虫scrapy框架爬取糗妹妹段子首页

【Python学习之旅】---多线程爬取段子

每日爬虫练习：爬取最新搞笑段子

Spider—糗事百科段子爬取

python爬虫实战-使用threading多线程爬取段子

正则爬取某段子网站前20页段子(request库)

xpath使用实例之爬取好段子网好段子代码

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)