Python爬虫闯关-1

版权声明:转载请注明! https://blog.csdn.net/linfeng886/article/details/81988189

第一关

第一关网址:
http://www.heibanke.com/lesson/crawler_ex00/

第一关很简单,就是把当前页面的数字加到网址后面,然后再新页面再循环操作。

步骤

  • 先访问初始网址,也就是http://www.heibanke.com/lesson/crawler_ex00/
  • 然后用re(正则表达式)或者BeatuifulSoup或者xpath取得当前网页中的数字,我用的是re
  • 然后将数字加入到url
  • 如此循环,大概几十次后,会出来一个结束界面,告诉你成功了

代码

import requests
import re
import time
def add_number_to_url(num):
    url='http://www.heibanke.com/lesson/crawler_ex00/'+str(num)
    #用requests库中的get请求
    response = requests.get(url)
    #得到html页面
    html = response.text
    #写一个正则表达式
    #正则表达式教程可以去网上搜搜,这里就不多说了
    patter = re.compile('<h3>.*?(\d+).*?</h3>', re.S)
    nums = re.findall(patter, html)
    #正则表达式匹配返回到结果是个列表,如果列表为空,就说明已经到了最后闯关成功界面了
    if len(nums)>0:
        #取出数字
        print(nums[0])
        #设置一下延时,不设置也没关系
        time.sleep(0.01)
        #函数进行递归,把数字传入,继续访问新链接
        add_number_to_url(nums[0])
    else:
        #当列表为空时,闯关成功,打印闯关成功的界面
        print('ok')
        print(html)
if __name__ == "__main__":
    num = ''
    add_number_to_url(num)

结语:

源码: 点我

欢迎关注我的公众号 疯子的Python笔记

公众号二维码.jpg

猜你喜欢

转载自blog.csdn.net/linfeng886/article/details/81988189