python 糗事百科爬虫 - 代码天地

python 糗事百科爬虫

其他 2018-05-08 16:30:24 阅读次数: 4

最近在学习python 爬虫——《精通python网络爬虫》，对着书上代码抄弄好了好久，都没有成功。在网上搜了一下，发现正则匹配可以用一个规则进行分组。

在处理匹配结果，本来想用字典，处理换行和标签，发现自己不会，但内容是字符串，可以重新赋值再进行处理。

这个爬虫没有网络上其他写的功能健全，还不能对包含图片的段子进行处理，但是自己的第一个能跑动的爬虫

import re,urllib.request

def getconment(url,page):
    headers = ('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0')
    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    urllib.request.install_opener(opener)
    data = urllib.request.urlopen(url).read().decode('utf-8')
    #分组匹配，匹配出的记过是一个列表，列表中的值是元组
    pater = '<div class="author.*?<h2>(.*?)</h2>.*?<span>(.*?)</span>.*?<i class="number">(.*?)</i>'
    content = re.compile(pater,re.S).findall(data)
    # print(content)

    for item in content:
        user = item[0].replace('\n','')
        duanzi = item[1].replace('\n','').replace('<br/>','\n')#匹配后的数据有\n换行，还有html的标签，将其进行替换
        # 段子内容超长，进行换行
        if len(duanzi) > 100:
            duanzi = duanzi[:100] + '\n' + duanzi[100:200] + '\n' + duanzi[200:]#此处没找到更好的方式处理超长，只能用字符串拼接
        print('第'+str(page)+'页   作者：'+ user+ '   点赞：'+str(item[2])+ '\n'+ '段子：' + duanzi + '\n')

for i in range(1,3):
    url = "https://www.qiushibaike.com/8hr/page/" + str(i)
    getconment(url,i)

猜你喜欢

转载自www.cnblogs.com/Pythonstart/p/9009063.html

python 糗事百科爬虫

python爬虫-糗事百科段子

python糗事百科爬虫

python-爬虫-糗事百科

python爬虫入门实战（一）---爬糗事百科

python爬虫（二）爬取糗事百科

使用python写糗事百科的爬虫

python爬虫基础案例之糗事百科

Python3~xpath应用糗事百科爬虫

Python3爬虫糗事百科最新可用

python 初学网络爬虫（糗事百科段子）

爬虫：python爬取糗事百科网页信息

Python爬虫(十七)_糗事百科案例

Python爬虫(十八)_多线程糗事百科案例

【Python3.6】糗事百科爬虫

python爬虫1、~爬取糗事百科

Python 之糗事百科多线程爬虫案例

python爬虫练手--糗事百科图片获取

python爬虫之提取糗事百科首页的内容

【Scrapy框架】糗事百科段子获取python 爬虫

Python爬取糗事百科

python爬去糗事百科

Python数据爬虫学习笔记（17）Scrapy糗事百科Crawl自动爬虫

python3糗事爬取-------------------糗事百科

python爬虫练习1：通过python爬取糗事百科的搞笑图片

芝麻HTTP:Python爬虫实战之爬取糗事百科段子

python爬虫小案例（逻辑规范的第一步）---糗事百科

python爬虫十二：middlewares的使用，爬取糗事百科

Python 爬虫学习糗事百科纯属敦促自己学习

Python爬虫实战(六)：爬取糗事百科段子

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)