1.爬取原页面
使用的网站链接:https://ipchaxun.com/.
页面如下图:
2.编程思路
将想要查询的IP地址复制给变量a,通过观察网站的URL在查询前后的变化,基于规则构建提交IP地址后可供查询的URL链接,获取内容后,分片输出即可查询到IP地址的归属地。
3.完整代码
import requests
def getHTMLText(url):
try:
kv={
'user-agent':'Mozilla/5.0'}
r=requests.get(url,headers=kv)
r.raise_for_status()
r.encoding=r.apparent_encoding
print(r.text[2000:3000])#分片查看相应字节
except:
print("爬取失败")
def main():
a=input("请输入要查询的IP地址:")
url='https://ipchaxun.com/'+a
getHTMLText(url)
main()
本篇完,如有错误欢迎指出~
引用源自
中国大学MOOC Python网络爬虫与信息提取
https://www.icourse163.org/course/BIT-1001870001