初次尝试爬虫

其实吧,本来这次爬虫作业是想做其他网页的……

为什么没做呢?直接上图吧……

 ……这个网页不让扒!不让扒!不让扒!也可能是我没找对方法吧……无妨,换一个网页继续吧

于是我就把目光投向了现在唯一打开的网页:咱们的班级

那就把咱们班级第一页的标题都爬下来吧。

但最开始,我的代码选择了借鉴同学的码。结果,是这样的……

 这我就真是奇了怪了,于是,我选择再研究一番,发现

 这个东西(现在是已经修改过的了)里的参数应该是这个问题的关键

做个爬虫,连源码都不看,这像话么?于是,利用了高效的资源(指百度)成功找到如何爬出源码,如图所示:

有一说一结果而言确实好用,效果如图所示:

然后,找到标题所在处,比如这个:

发现是在<h3></h3>里

那还等啥?填参数啊!

源代码如下:

import pandas as pd
import requests as rq
from bs4 import BeautifulSoup
ur1="https://edu.cnblogs.com/campus/academy/2020python?page=2"
r=rq.get(ur1)
try:
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    message=r.text
except:
    print('ERROR')
soup=BeautifulSoup(message,'html.parser')
index=soup.find_all('h3')
for i in index:
    print(i.text)

效果如下:

猜你喜欢

转载自www.cnblogs.com/li020108/p/12818134.html