网络爬虫的第一个库--BeautifulSoup

用到的参考文章:https://blog.csdn.net/kikaylee/article/details/56841789

1.安装

BS安装多数在linux系统下安装教程多,无奈我的实在windows系统下使用的,所以也摸索了一段时间。参考此文章:https://blog.csdn.net/u012175089/article/details/60987804.先将下载好的.gz的安装包放在Scripts文件夹下,然后在做相应的操作,下载好之后安装如下(我也不知道为什么是安装在那个路径,因为我电脑同时有3.7和3.1两个版本的python,默认是3.7,我用3.1安装是不是就安装在默认路径,没有考究):

测试一下是否安装成功

from bs4 import BeautifulSoup
from urllib.request import urlopen
resp = urlopen("http://www.baidu.com")
html=resp.read()
bs = BeautifulSoup(html)
print( bs.prettify())

一百度为例,最后输出来一大堆妖魔鬼怪啊,太长就不粘贴了,测试成功。

2.BeautifulSoup的基本用法

最权威的文档或者详细的使用发放 可以参照官网的文档说明:https://www.crummy.com/software/BeautifulSoup

2.1 多种解析方式

推荐使用第二种,在实际运用中,第二种效果够用了,当然是根据自身所需要的来装换。

2.2常用对象和方法

主要是包括beautifulsoup最常用的方法,如findall、select以及一些对象(如果对网页的html或者xml的构成熟悉的话,这些就显得很简单了),在下一篇章中,详细介绍各个方法的用法,以及复杂的正则表达式,结合起来就可以在网页中提取我们需要的饿元素或者资源。

猜你喜欢

转载自blog.csdn.net/ljsant/article/details/102483360