Python爬虫学习（二）使用Beautiful Soup库 - 代码天地

Python爬虫学习（二）使用Beautiful Soup库

其他 2020-01-31 00:17:33 阅读次数: 0

（一）使用Beautiful Soup库

　　1，安装Beautiful Soup库：pip install beautifulsoup4

　　2，简单使用：

import requests;
from _socket import timeout
from bs4 import BeautifulSoup         #使用Beautiful Soup库需要导包
#from aifc import data
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)  
        r.raise_for_status()           #如果连接状态不是200，则引发HTTPError异常
        r.encoding=r.apparent_encoding #使返回的编码正常
        print("连接成功")
        return r.status_code
    except:
        print("连接异常")
        return r.status_code

url="https://python123.io/ws/demo.html"
#keywords={"ip":"202.204.80.112"}
access={"user-agent":"Mozilla/5.0"}              #设置访问网站为浏览器Mozilla5.0
if getHTMLText(url)==200:
    r=requests.get(url, headers=access)        
    #print(r.encoding)
    r.encoding=r.apparent_encoding
    demo=r.text
    soup=BeautifulSoup(demo,"html.parser")      #解析HTML页面，使用html.parser解析器
    print(soup.prettify())                      #打印HTML代码
　 　print(soup.a.attrs)                               #打印出该HTML文件的第一个a标签的属性，获得一个字典型数据；可以根据soup.a.attrs['href']获取链接
　　print(soup.a.name) 　　　　　　　　　　　　#打印第一个a标签的标签名
   print(soup.a.parent.name)             #打印出第一个a标签的父标签的标签名

　　3，原理：

　　　　

　　　　

（二）

　　1，基本要素

　　　　

　　　　　使用beautiful Soup库进行HTML遍历

　　　　

　　　　

　　　　

　　　　

　　　　

猜你喜欢

转载自www.cnblogs.com/lq13035130506/p/12244359.html

Python爬虫学习（二）使用Beautiful Soup库

Beautiful Soup库 - Python爬虫(二)

Python 爬虫解析库的使用 --- Beautiful Soup

Python爬虫库-Beautiful Soup的使用

Python爬虫入门——Beautiful Soup库的使用

Beautiful Soup库的学习

初探Python网络爬虫：Beautiful Soup库

04 Python爬虫之Beautiful Soup库

Python网络爬虫（四）——Beautiful Soup库

python爬虫--03 Beautiful Soup库

python3爬虫（二）：解析库之Beautiful Soup

Python爬虫数据抽取(二)：解析库Beautiful Soup 4

Python爬虫学习（四）Beautiful Soup库入门

Python爬虫之Beautiful Soup解析库的使用（五）

Python爬虫之解析库的使用(XPath、Beautiful Soup)

Beautiful Soup库整理

Beautiful Soup库笔记

Beautiful Soup库介绍

Beautiful Soup库的安装

Beautiful Soup 库的应用

Beautiful Soup库

Beautiful Soup库入门

Beautiful Soup库详解

Beautiful Soup库的概述

使用Beautiful Soup解析库

Beautiful Soup库的简单使用

Python 爬虫 ---- Beautiful Soup（二）

【Python3 爬虫学习笔记】解析库的使用 7 —— Beautiful Soup 5

【Python3 爬虫学习笔记】解析库的使用 5 —— Beautiful Soup 3

【Python3 爬虫学习笔记】解析库的使用 4 —— Beautiful Soup 2

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)