python 爬取网站获得一个网站的所有链接

第一步,找个网站 我这里就找行业里比较有名的收录网站的网站 酷113网

第二步,打开www.ku113.com 按下鼠标右键 点击查看源码

第三步,把源码复制下来 保存成一个文件 命名 ku113.html

第四步, 执行以下python 程序 我这里用的py 2.7.13版本

#coding:utf-8
import re
from bs4 import BeautifulSoup

with open(‘ku113.html’,‘r’) as f:
data = f.read()
#print (data)
result = re.findall(r"(?<=href=").+?(?=")|(?<=href=’).+?(?=’)",data)
#print result

for each in result:
print (each)

猜你喜欢

转载自blog.csdn.net/u012421714/article/details/85494784