Python3爬虫入门第二课 - 代码天地

Python3爬虫入门第二课

其他 2018-11-09 13:22:40 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_36092584/article/details/81252674

前面用的一直是Python内置的urllib库进行爬虫实验，后面发现原来用第三方库requests更佳
下面这个是对糗事百科的段子爬取，代码更加规范，符合面向对象，而且特别是requests用起来更方便

在windows系统下只需要在命令行输入命令 pip install requests 即可安装。

# coding:utf-8
import re
import requests

class JOKE:

    # 魔法方法
    def __init__(self):
        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        self.header = {'User-Agent' : self.user_agent}

    def getPage(self):
        try:
            url = 'http://www.qiushibaike.com/hot/page/1'
            response = requests.get(url, headers = self.header, timeout = 30)
            
            pattern = re.compile('<div class="content">\s<span>(.*?)</span>.*?<div class="stats"', re.S)
            items = re.findall(pattern, response.text)
            if len(items) == 0:
                print("未抓取到数据!!!")
            #saveContent(response.text)
            for item in items:
                br = re.compile('<br/>')
                text = re.sub(br, '\n', item)
                print(text)

        except:
            return "产生异常"    


if __name__ == '__main__':
    joke = JOKE()
    joke.getPage()

代码说明：

多行匹配，那么需要加上re.S
str = "a23b\na34b"
re.findall(r"a(\d+)b.+a(\d+)b", str)#输出[]
#因为不能处理str中间有\n换行的情况
re.findall(r"a(\d+)b.+a(\d+)b", str, re.S)#s输出[('23', '34')]

贪婪和非贪婪匹配
str = "a123b456b"
print re.findall(r"a(.+?)b", str)#输出['123']#?控制只匹配0或1个,所以只会输出和最近的b之间的匹配情况
print re.findall(r"a(.+)b", str)#输出['123b456']
print re.findall(r"a(.*)b", str)#输出['123b456']

猜你喜欢

转载自blog.csdn.net/qq_36092584/article/details/81252674

Python3爬虫入门第二课

python入门第二课练习

python入门第二课

python爬虫_第二课

C#入门第二课

Tensorflow1入门第二课

Python基础入门第二课--Python编辑器的选择

Python入门第二课，尝试用代码画画。

Python爬虫第二课：了解与学习HTML

Python3正则表达式第二课

人工智能第二课---------Python3基础（一）

爬虫第二课---urllib

Spring入门第二课：Spring配置Bean的细节

wxPython入门第二课--create menu bar （菜单栏）

C语言入门第二课 ——编程环境（编译器，visual studio）

Kali Linux入门第二课 | 一次简单的渗透笔记

第二课.IDA入门

python自学第二课！

python第二课

2018.6.1 Python第二课

python学习第二课

Python基础第二课

python第二课（函数）

自学 Python 第二课

python第二课作业

第二课

爬虫第二课：解析网页中的元素

爬虫第二课：定义函数

【Jsp】第二课 Servlet入门学习(二)

python爬虫学习第二课之基础库urllib的使用

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)