Python3简单的爬虫实例
1、打开百度网页
2、将网页HTML转化成utf-8格式存入文件 baidu.txt
3、获取网页中的所有a标签对象,将对象指向的链接地址抓取出来写入url.txt
#spider1.py
#coding:utf-8
import requests
import codecs
from bs4 import BeautifulSoup
url = "http://www.baidu.com"
user_agent = 'Mozilla/4.0 (compatible;MSIE 5.5; Windows NT)'
headers={'User-Agent':user_agent}
r = requests.get(url,headers=headers)
if r.status_code==200:
r.encoding='utf-8'
print(r.text)
fout=codecs.open('baidu.txt','w',encoding='utf-8')
fout.write(r.text)
fout.close()
bsobj=BeautifulSoup(r.content,'lxml')#将网页源码构造成BeautifulSoup对象,方便操作
a_list=bsobj.find_all('a')#获取网页中的所有a标签对象
text=''# 创建一个空字符串
fora in a_list:
#print(a.get('href')) #打印a标签对象的href属性,即这个对象指向的链接地址
href=a.get('href')#获取a标签对象的href属性,即这个对象指向的链接地址
text+=href+'\n' #加入到字符串中,并换行
withopen('url.txt','w') as f: #在当前路径下,以写的方式打开一个名为'url.txt',如果不存在则创建
f.write(text)#将text里的数据写入到文本中