Beautiful Soup知道这些就够了

简介

        在日程爬虫中我们需要使用许多方法来获取HTML或XML标签中的内容,例如正则表达式、xpath语法,除了上述方法,还有一种更加方便、强大的工具叫Beautiful Soup,通过使用它我们同样也可以提取出 HTML 或 XML 标签中的内容。

使用方法

        在使用BeautifulSoup时,我们首先创建一个BeautifulSoup对象,将对象进行实例化,实例化的方法有2种,一种是直接将我们通过request请求返回的html进行实例化,另一种是可以用本地存储的 HTML 文件来创建对象。

Beautifulsoup对象的实例化:
    —— BeautifulSoup(fp,'lxml'):用来将本地存储的html文档中的数据进行解析
    —— BeautifulSoup(page_text,'lxml'):用来将互联网请求到的页面源码数据进行解析

soup = BeautifulSoup(open('index.html')) #将本地 index.html 文件打开,用它来创建 soup 对象

        实例化BeautifulSoup之后,我们需要掌握BeautiSoup的获取html元素的方法,常用的标签定位方法有以下几种方式:

soup.tagName:只可以定位到第一次出现的tagName标签
soup.find('tagName',attrName='value'):属性定位
soup.findAll:跟find一样用作属性定位,只不过findAll返回的是列表
soup.select('选择器'):选择器定位

        元素定位成功后,通过.text()或者.string方法获取文本内容。

实战

        下面通过一个实战来具体看一下BeautifulSoup的使用方法,我们以爬取校花网为例,把网页中的图片爬取下来并保存到本地。

 代码如下:


import requests
from bs4 import BeautifulSoup
import lxml
import os


dirname = 'F:\\xunlei02'
if not os.path.exists(dirname):
    os.mkdir(dirname)
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
    }

def get_url():
    url = 'http://www.521609.com/qingchunmeinv/'

    response = requests.get(url,headers = headers).text.encode('iso-8859-1').decode('GBK')
    #print(response)
    soup = BeautifulSoup(response,'lxml')
    #print(soup)
    #print(soup.li)   #定位获取到第一个li标签

    #print(soup.find('img',alt="师大清纯美女"))  #根据标签进行定位和属性值进行定位
    #print(soup.findAll('img',alt="师大清纯美女"))  #和soup.find用法一致,返回形式是list列表

    #获取属性值,这里是获取href
    # context = soup.findAll('a',class_ = 'title')
    # for i in context:
    #     print(i['href'])

    img_list = soup.findAll('img')
    for img in img_list[1:]:
        url_img =  'http://www.521609.com/'+ img['src']
        print(url_img)
        downimage(url_img)



def downimage(url):

    img_name = dirname + '\\' + url.split('/')[-1]
    #print(img_name)
    response = requests.get(url,headers = headers).content
    with open(img_name,'ab') as f:
        f.write(response)


if __name__ == '__main__':
    get_url()

可以看到,通过使用BeautifulSoup方法我们成功获取到了图片链接地址,并将图片成功保存到本地电脑中。

 

 

Guess you like

Origin blog.csdn.net/sl01224318/article/details/118636558