Python爬虫闯关-1

其他 2018-08-27 22:11:16 阅读次数: 0

版权声明：转载请注明！ https://blog.csdn.net/linfeng886/article/details/81988189

第一关

第一关网址:
http://www.heibanke.com/lesson/crawler_ex00/

第一关很简单，就是把当前页面的数字加到网址后面，然后再新页面再循环操作。

步骤

先访问初始网址，也就是http://www.heibanke.com/lesson/crawler_ex00/
然后用re(正则表达式)或者BeatuifulSoup或者xpath取得当前网页中的数字，我用的是re
然后将数字加入到url
如此循环，大概几十次后，会出来一个结束界面，告诉你成功了

代码

import requests
import re
import time
def add_number_to_url(num):
    url='http://www.heibanke.com/lesson/crawler_ex00/'+str(num)
    #用requests库中的get请求
    response = requests.get(url)
    #得到html页面
    html = response.text
    #写一个正则表达式
    #正则表达式教程可以去网上搜搜，这里就不多说了
    patter = re.compile('<h3>.*?(\d+).*?</h3>', re.S)
    nums = re.findall(patter, html)
    #正则表达式匹配返回到结果是个列表，如果列表为空，就说明已经到了最后闯关成功界面了
    if len(nums)>0:
        #取出数字
        print(nums[0])
        #设置一下延时，不设置也没关系
        time.sleep(0.01)
        #函数进行递归，把数字传入，继续访问新链接
        add_number_to_url(nums[0])
    else:
        #当列表为空时，闯关成功，打印闯关成功的界面
        print('ok')
        print(html)
if __name__ == "__main__":
    num = ''
    add_number_to_url(num)

结语：

源码: 点我

欢迎关注我的公众号 疯子的Python笔记

公众号二维码.jpg

猜你喜欢

转载自blog.csdn.net/linfeng886/article/details/81988189

Python爬虫闯关-1

Python爬虫闯关-4

Python爬虫闯关-3

Python爬虫闯关-2

Python爬虫闯关-5

Python 爬虫闯关（第四关）-续

Python 爬虫闯关（第四关）

Python黑板客爬虫闯关三

Python黑板客爬虫闯关二

Python黑板客爬虫闯关一

<爬虫>黑板爬虫闯关

Python：黑板课爬虫闯关第一关

Python：黑板课爬虫闯关第二关

python 黑板课爬虫闯关-第二关

python 黑板课爬虫闯关-第一关

python 黑板课爬虫闯关-第四关

Python 黑板客爬虫闯关的第一关

面试闯关1

Python爬虫入门教程 87-100 glidedsky网站爬虫解析，爬虫闯关第一篇

the python challenge闯关记录

Python3 黑板客爬虫闯关第三关

Python3 黑板客爬虫闯关第二关

Python3 黑板客爬虫闯关第一关

python爬虫1 - 爬虫概要

Python 爬虫之路(1)

Python 爬虫笔记1

python 爬虫小结1

Python——爬虫学习1

【Python】爬虫-1

python—网络爬虫（1）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)