Python中利用BeautifulSoup库进行简单的网页爬虫 - 代码天地

Python中利用BeautifulSoup库进行简单的网页爬虫

编程语言 2018-08-03 17:28:11 阅读次数: 0

本文章介绍的主要内容是在网页中搜寻到对应模块的参数值，以下将介绍利用BeautifulSoup来查询一个网站的访问量。

首先需要安装BeautifulSoup模块，我用的是Anaconda，已经附带安装了包括BeatifulSoup在内的第三方库。可以在.../Anaconda3/pkgs 文件夹中查看此模块的详细信息。

此外，需要对HTML语言有一定的了解。在此不做介绍。

以下是代码的实现：

----------------------

from bs4 import BeautifulSoup
from urllib import request
import re
res=request.urlopen("https://blog.csdn.net/qq_33810188")
soup=BeautifulSoup(res,"html.parser")
ullist=soup.findAll("div",attrs={"class":"grade-box clearfix"})
ullist1=soup.findAll("dd",attrs={"title":True})
ullist_rank=soup.findAll("dl",attrs={"title":True})
n=0
print(soup.title.string)
for index in ullist1:
    n=n+1
    uu=index.children
    for child in uu:
        if n==1:
            print("访问量：",child)
        if n==2:
            print("积分值：",child)
n=0
for index in ullist_rank:
    chil=index.children
    for child in chil:
        n=n+1
        if n==24:
            print("排名：",child.string)

----------------------

测试效果如下：

代码具体的实现原理，需要对HTML语言和BeautifulSoup有一定的了解。

例如下图，整个结构体在<div ..> ... </div>中，可以通过 div 和 class 进行检索

扫描二维码关注公众号，回复： 2520444 查看本文章

同理，内部的内容也可以通过不同的标签进行检索。

ullist_rank=soup.findAll("dl",attrs={"title":True}) 中True表示所有合法的语法，这样就可以不用固定title的值（title中的值有时可能是变量，例如<dd title="1751">中 1751 是一个变量，不利于检索）。

后续如果想将其打包成可执行文件exe，可以用pyinstaller模块，此模块需要安装，同样地，在cmd窗口输入 pip install Pyinstaller

安装完成后，可以用 pyinstaller --version 查看安装的版本。

此后，可以将cmd路径更改到需要进行打包的文件夹中，直接输入 pyinstaller *****.py，即可进行打包，完成后，在对应的子文件夹中可以生成exe文件，如下：

此exe文件同样可以利用cmd窗口运行（需要将文件夹路径加入系统环境Path中）

猜你喜欢

转载自blog.csdn.net/qq_33810188/article/details/81361085

Python中利用BeautifulSoup库进行简单的网页爬虫

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片—代码完善

python爬虫——利用requests库BeautifulSoup简单爬取网页上照片

python爬虫——利用requests库BeautifulSoup定向爬取网页内容写入txt文件

Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示

python爬虫爬取虎牙数据（简单利用requests库以及Beautifulsoup）

Python爬虫-BeautifulSoup 库

python爬虫——BeautifulSoup库

Python爬虫 BeautifulSoup库实践——保存网页图片

【转载】Python3网络爬虫(一)：利用urllib进行简单的网页抓取

Python3网络爬虫(一)：利用urllib进行简单的网页抓取

python爬虫之BeautifulSoup4库的简单用法

Python爬虫库BeautifulSoup的介绍与简单使用实例

python爬虫之BeautifulSoup库

python爬虫的BeautifulSoup库详解

python爬虫（六）BeautifulSoup库

python爬虫_BeautifulSoup库使用

python爬虫二:bs4库中的BeautifulSoup模块

Python3中beautifulsoup库的使用(爬虫利器)

利用爬虫的scrapy框架对网页中的数字进行求和

python利用beautifulsoup多页面爬虫

Python爬虫学习三------requests+BeautifulSoup爬取简单网页

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

python爬虫——BeautifulSoup库和pyquery库

Python 简单网页爬虫

Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）

（待整理）Python:requests库、BeautifulSoup4库的基本使用（实现简单的网络爬虫）

初探：Python中使用request和BeautifulSoup库进行网络爬虫

python爬虫学习笔记四：BeautifulSoup库对HTML文本进行操作

使用Python爬虫库BeautifulSoup遍历文档树并对标签进行操作详解

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)