bs4爬取网页基础 - 代码天地

bs4爬取网页基础

其他 2020-02-15 16:10:01 阅读次数: 0

import requests
from bs4 import BeautifulSoup


def getSOUP(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        # print(r.text)  # 代码很乱
        soup = BeautifulSoup(r.text, "html.parser")  # parser分析器、解析器
        # print(soup.prettify())   # 美化后的网页代码
        print(soup.a)  # 获取标签内容
        print(soup.a.name)  # 获取标签名字
        print(soup.a.parent.name)
        print(soup.a.parent.parent.name)
        tag = soup.a
        print(type(tag))  # tag属性
        print(tag.attrs)  # 打印属性,无论存在属性都会返回一个字典类型
        print(type(tag.attrs))  # 打印属性类型
        print(tag.attrs['class'])  # 打印class属性的属性值
        print(type(tag.attrs['class']))
        print(tag.string)  # 获取字符串
    except expression as identifier:
        print("错误")


if __name__ == "__main__":
    url = "https://python123.io/ws/demo.html"
    getSOUP(url)

发布了143 篇原创文章 · 获赞 78 · 访问量 4万+

私信关注

猜你喜欢

转载自blog.csdn.net/KK_2018/article/details/104096716

bs4爬取网页基础

bs4 爬取网页数据(一)

爬虫--爬取网页图片--bs4

bs4爬取网站图片

BS4爬取小说内容

python 简单爬取本地文档与爬取网页使用requests和bs4，及自己问题的解决

用bs4和urllib 爬取视频

bs4爬取漫画并写入TXT文档

python使用bs4爬取boss静态页面

Python使用bs4爬取 cnblogs

bs4解析爬取星巴克数据

bs4库爬取天气预报

python超详细零基础 bs4解析之爬取唯美图片

2019-11-11 爬网页3-爬取豆瓣电影信息保存到csv(python2.7，静态页面。requests/bs4/lxml/xpath）

爬虫之爬取图片（运用了bs4和正则查取）

网络爬虫 - 4 bs4的使用方法与爬取案例

针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息

python 模拟鼠标点击+bs4一键爬取多个网页新闻（题目、媒体、日期、内容、url）

bs4——BeautifulSoup模块：解析网页

简单网页爬虫（requests,bs4）

利用bs4和requests爬取股票历史交易数据

Python3-selenium\phantomjs\bs4爬取斗鱼页面

python利用 request bs4 模块爬取imgur网站图片

python接口自动化测试十八：使用bs4框架爬取图片

爬虫入门之爬取策略 XPath与bs4实现(五)

python2使用bs4爬取腾讯社招

使用requests和bs4模块爬取虎扑爆照区照片

用xpath、bs4、re爬取B站python数据

利用python bs4爬取个人逾期数据

利用python bs4爬取企业逾期数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)