BeautifulSoup4-提取HTML中所有URL链接 - 代码天地

BeautifulSoup4-提取HTML中所有URL链接

其他 2020-06-27 08:58:08 阅读次数: 0

'''

提取HTML中所有URL链接

'''

import requests
from bs4 import BeautifulSoup
import re

# r = requests.get("https://python123.io/ws/demo.html")
# demo = r.text

demo = """
<html><head><title>This is a python demo page</title></head>
<body>
<p class="title"><b>The demo python introduces several python courses.</b></p>
<p class="course">Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:
<a href="http://www.icourse163.org/course/BIT-268001" class="py1" id="link1">Basic Python</a> and <a href="http://www.icourse163.org/course/BIT-1001870001" class="py2" id="link2">Advanced Python</a>.</p>
</body></html>
"""

"""

find_all(name, attrs, recursive, string, **kwargs)方法：
<tag>(..) 等价于 <tag>.find_all(..)
soup(..) 等价于 soup.find_all(..)

"""

soup = BeautifulSoup(demo, "html.parser")

for link in soup.find_all('a'): # 1、搜索到所有<a>标签
print(link.get("href")) # 2、解析<a>标签格式，提取href后的链接内容

print(soup.find_all('a')) # 查找<a>标签
'[<a class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python</a>, <a class="py2" href="http://www.icourse163.org/course/BIT-1001870001" id="link2">Advanced Python</a>]'
print(soup.find_all(['a', 'b'])) # 同时查找<a><b>标签

for tag in soup.find_all(True): # 获取所有标签
print(tag.name)

'''
html
head
title
body
p
b
p
a
a
'''

# 只显示以b开头的标签，包括<b>和<body>标签元素
for tag in soup.find_all(re.compile('b')): # 正则表达式查找以<b>开头的标签元素
print(tag.name)

print(soup.find_all('p', 'course')) # 返回<p>标签中，属性值为"course"的标签元素

print(soup.find_all(id = "link1")) # 返回属性中id域等于"link1"的标签元素

print(soup.find_all(id = re.compile("link"))) # 返回属性中id域以"link"开头的所有标签元素

print(soup.find_all(attrs={"class": "py1"}))

猜你喜欢

转载自www.cnblogs.com/pencil2001/p/13197203.html

BeautifulSoup4-提取HTML中所有URL链接

BeautifulSoup4-介绍

获取HTML中所有图片的 URL

jsoup 提取 html中的所有链接

jsoup深度遍历html中所有的子链接

Python提取Word文档中所有超链接地址和文本

beautifulsoup提取所有<a>标签内容 Python

正则找出html中所有button

Python网络爬虫——把一个网页中所有的链接地址提取出来（去重）

Android 从带有html标签的String字符串中提取网页链接url

Python 自动提取电影中所有人脸

快速批量提取PPT中所有图片

BeautifulSoup4 --解析和提取 HTML/XML 数据

利用BeautifulSoup4解析和提取 HTML/XML 数据

获取SpringMVC中所有RequestMapping映射URL信息

Jsoup获取url所有链接

Java获取网页中所有图片、视频的链接

将链表中所有节点的链接方向“原地”逆转

js获取html代码中所有图片地址

Java读取html中所有img标签的src值

JAVA匹配html中所有img标签

递归遍历文件中所有html文件保存

hive学习总结(4)—hive中所有join

python提取url中的所有中文字符

记录一下提取文件夹中所有文件名字

Python批量提取docx格式Word文档中所有文本框内的文本

正则表达式匹配聊天中所有url连接地址-高亮显示

获取项目中所有URL--获取swagger上展示的接口信息

Android提取HTML代码内的所有文字内容

"；"替换string中所有"，"

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)