Python黑板客爬虫闯关一 - 代码天地

Python黑板客爬虫闯关一

其他 2018-10-30 21:42:02 阅读次数: 0

http://www.heibanke.com/lesson/crawler_ex00/

这是一个练习Python爬虫的非常好的网站。

进入该网址，如图

在网址后边输入14901后，如图

根据网页给的数字不断更新网址后的数字，直到提示进入下一关为止。分析一下大概思路：用python获取网页，然后从网页的内容中提取这个数字，再把这个数字加在网址后面继续进行以上操作。在这，我们需要requests 和正则表达式 re 。用requests库得到html页面，用re 库匹配其中的数字。

正则表达式如下：

re.findall(r'数字是([\d]{5})', html)

全部代码如下

import requests
import re


def get_html(url):
    html = requests.get(url)
    html.raise_for_status()
    html.encoding = html.apparent_encoding
    html = html.text
    number = re.findall(r'数字是([\d]{5})', html)
    return number[0]


def main():
    url = "http://www.heibanke.com/lesson/crawler_ex00/44513"
    while True:
        try:
            num = get_html(url)
            url = "http://www.heibanke.com/lesson/crawler_ex00/" + str(num)
            print(url)
        except IndexError:
            print(num)
            break


main()

运行结果如下：即得到最后一个网页数字，输入后进入第二关

点击链接 https://blog.csdn.net/Ljt101222/article/details/81562621 进入Python黑板客爬虫闯关二

猜你喜欢

转载自blog.csdn.net/Ljt101222/article/details/81530396

Python黑板客爬虫闯关一

Python 黑板客爬虫闯关的第一关

Python黑板客爬虫闯关三

Python黑板客爬虫闯关二

Python3 黑板客爬虫闯关第一关

Python：黑板课爬虫闯关第一关

python 黑板课爬虫闯关-第一关

<爬虫>黑板爬虫闯关

Python3 黑板客爬虫闯关第三关

Python3 黑板客爬虫闯关第二关

黑板客爬虫闯关第一关、第二关

Python：黑板课爬虫闯关第二关

python 黑板课爬虫闯关-第四关

python 黑板课爬虫闯关-第二关

Python爬虫闯关-2

Python爬虫闯关-3

Python爬虫闯关-4

Python爬虫闯关-5

Python爬虫闯关-1

Python 爬虫闯关（第四关）

Python 爬虫闯关（第四关）-续

Python爬虫入门教程 87-100 glidedsky网站爬虫解析，爬虫闯关第一篇

python 闯关之路一（语法基础）

python闯关之路一（语法基础）

glidedsky爬虫闯关第一关

Python学习教程：什么是爬虫？有什么用？怎么爬？重点！敲黑板咯！

计蒜客闯关游戏

the python challenge闯关记录

【牛客】J.闯关的lulu

python爬虫下载极客学院视频

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)