简单网页爬虫（requests,bs4） - 代码天地

简单网页爬虫（requests,bs4）

其他 2020-10-28 13:05:13 阅读次数: 0

import requests
import re
from bs4 import BeautifulSoup as BS
import bs4

#requests模块基本开头
kv={
    
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362'}#Mozilla/5.0是一个标准的浏览器
url='http://lishi.zhuixue.net/#'    
r=requests.get(url,headers=kv)
r.status_code
r.encoding=r.apparent_encoding
html=r.text
soup=BS(html,'html.parser')
print(soup.prettify)

print(soup.title)#打印题目
print(soup.title.name)#打印标题标签名字
print(soup.title.string)#打印标题尖括号之间的内容
print(soup.title.parent.name)#打印title标签父标签的名字
print(soup.p)#打印第一个p标签（含内容）
print(soup.p['class'])#打印第一个p标签及class属性
print(soup.a['href'])#打印第一个a标签的href属性值
print(soup.p.contents)#输出第一个p标签的所有子节点
print(soup.find_all('a'))#获得所有标签名为a的标签
print(soup.find_all('ul',"xiaobiaoti"))#输出所有名为ul，属性值为"xiaobiaoti"的标签
print(soup.find_all(target="_blank"))#输出所有target="_blank"的标签
print(soup.get_text())#输出所有文本内容（尖括号之间的文字）
print(soup.a.attrs)#输出第一个标签的所有属性信息（字典）

猜你喜欢

转载自blog.csdn.net/weixin_45590329/article/details/106080711

简单网页爬虫（requests,bs4）

python bs4 + requests4 简单爬虫

爬虫 requests，bs4 用法示例

安装爬虫第三方的组件，简单学习爬虫（requests,bs4)

爬虫_BS4

爬虫-BS4

学习用requests, bs4 抓取网页特定的内容

requests和bs4的python爬虫入门

python爬虫基础知识——requests、bs4的使用

Python爬虫需要requests和bs4

爬虫系列 requests和bs4 scrapy

爬虫--爬取网页图片--bs4

网络爬虫之网页数据解析（bs4）

python 简单爬取本地文档与爬取网页使用requests和bs4，及自己问题的解决

bs4爬虫入门

request、bs4爬虫

爬虫，基于request，bs4 的简单实例整合

Bs4 简单使用

requests bs4 datetime re json

安装requests 和bs4

python requests,bs4应用实例

python requests bs4练习

爬虫（七）基于requests‐bs4‐re的淘宝&股票数据爬虫

[Python 爬虫之路1] 爬取糗事百科（requests，bs4）

python爬虫（五）：实战【2. 爬创客实验室（requests + bs4）】

Python网络爬虫requests、bs4爬取空姐图片，福利哦

Python网络爬虫requests、bs4爬取空姐网图片

bs4——BeautifulSoup模块：解析网页

bs4爬取网页基础

基于Flask+requests+bs4的简单小说网页

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)