本文使用简单的面向过程的编程思想,更容易理解。
说明:
本文使用了简单的模块:requests和re模块,当然也可以使用urlib模块。
开发环境是:Python3.5
开发工具:VsCode
代码如下:
import requests import re #循环制造网页 for page in range(1,2): #这里默认爬取了一页,爬取多页修改此处即可 url='http://www.ygdy8.net/html/gndy/oumei/list_7_'+str(page)+'.html' html=requests.get(url) #请求网页 html.encoding='gb2312' #修改编码格式,根据网页上的要求修改 dyData=re.findall('<a href="(.*?)" class=',html.text) #使用re表达式获取网页代码 for m in dyData: xqUrl='http://www.ygdy8.net'+m #获取网页源代码 html2=requests.get(xqUrl) html2.encoding='gb2312' try: dyLink=re.findall('<a href="(.*?)">.*?</a></td>',html2.text)[0] print(dyLink) except: print('没有匹配到信息') with open('X:\\Users\\zhaomeng\\Desktop\\1234\\111.txt','a+')as ff: #写入本地文件夹 ff.write(dyLink+'\n')
vscode结果如下图所示:
本地文件如图所示: