Python 3学习笔记(3):简单的爬虫实例

Python3简单的爬虫实例

1打开百度网页
2
、将网页HTML转化成utf-8格式存入文件 baidu.txt

3、获取网页中的所有a标签对象,将对象指向的链接地址抓取出来写入url.txt

#spider1.py

#coding:utf-8

import requests

import codecs

from bs4 import BeautifulSoup

url = "http://www.baidu.com"

user_agent = 'Mozilla/4.0 (compatible;MSIE 5.5; Windows NT)'

headers={'User-Agent':user_agent}

r = requests.get(url,headers=headers)

if r.status_code==200:

      r.encoding='utf-8'

      print(r.text)

      fout=codecs.open('baidu.txt','w',encoding='utf-8')

      fout.write(r.text)

      fout.close()

      bsobj=BeautifulSoup(r.content,'lxml')#将网页源码构造成BeautifulSoup对象,方便操作

      a_list=bsobj.find_all('a')#获取网页中的所有a标签对象

      text=''# 创建一个空字符串

      fora in a_list:

           #print(a.get('href'))   #打印a标签对象的href属性,即这个对象指向的链接地址

           href=a.get('href')#获取a标签对象的href属性,即这个对象指向的链接地址

           text+=href+'\n'           #加入到字符串中,并换行

      withopen('url.txt','w') as f: #在当前路径下,以写的方式打开一个名为'url.txt',如果不存在则创建

           f.write(text)#text里的数据写入到文本中          


猜你喜欢

转载自blog.csdn.net/dalong10/article/details/80035669
今日推荐