[爬虫入门]BeautifulSoup获取标外内容 - 代码天地

[爬虫入门]BeautifulSoup获取标外内容

其他 2018-12-24 17:08:50 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/shichimiyasatone/article/details/79330131

写完后再看了下正则，发现有个简单的方法可以获取，只需替换第4步

name_pat = '(<div class="info1">)(.+)(</div>)'
#将div分为三组，中间的第二组即为想要的内容
name_re = re.match(name_pat,str(name_tag))
if name_re is not None:
    print name_re.group(2)

-------------------------------------------------------------------------------------------------------------------------------------------------

前几天入门开始学爬虫，把图爬下来了可是图片的名字不在标签内不会如何获取，看百度说用正则

无奈之前没学过就放着了。今天学了正则想来试试，发现虽然tag无法直接切片，但是可以用内建函数

str()转换成字符串再切片，虽然感觉这方法有点呆，不过也达到了目的，等正则学好了再试试正则的方法。

例子：

<div class ="cla22">
    <form>
        <div class="info1">张三</div>
    </form>
</div>

1.先获取网页html

soup = BeautifulSoup(content, "html5lib")

2.使用find找到包含对应class、id的tag

div_tag = soup.find('div',class_='cla22')

3.可以直接先print打印div_tag的内容

print(div_tag)

4.下面开始提取div外的内容

name_tag = div_tag.find('div',class_='info1')
name = str(name_tag)[19:-6]    #名字从第19位开始，去掉后面多余的6个字符

猜你喜欢

转载自blog.csdn.net/shichimiyasatone/article/details/79330131

[爬虫入门]BeautifulSoup获取标外内容

Python爬虫入门9：BeautifulSoup快速查找HTML内容

Python爬虫入门8：BeautifulSoup获取html标签相关属性

【爬虫入门4】BeautifulSoup

爬虫入门-BeautifulSoup库

BeautifulSoup获取 title 标签的内容

爬虫入门——requests和Beautifulsoup

爬虫入门 beautifulsoup库（一）

Python爬虫库BeautifulSoup获取对象(标签)名,属性,内容,注释

Python BeautifulSoup 爬虫入门笔记 --- 新闻爬虫

爬虫入门-4-1.利用BeautifulSoup获取中国天气网最低气温

爬虫（三）—— BeautifulSoup模块获取元素

Python爬虫小白入门（三）BeautifulSoup库

爬虫入门—BeautifulSoup4的使用

Python学习爬虫（3）——BeautifulSoup入门介绍

Python爬虫小白入门（十）Python 爬虫 – BeautifulSoup分析页面

爬虫(BeautifulSoup)

爬虫-BeautifulSoup

爬虫--BeautifulSoup

爬虫（BeautifulSoup）

BeautifulSoup爬虫

Python爬虫入门教程五：爬虫实战之获取微博内容

Python获取网页指定内容(BeautifulSoup工具的使用方法)

BeautifulSoup 获取第二个span标签内容

python爬虫入门四：BeautifulSoup库(转) python爬虫从入门到放弃（六）之 BeautifulSoup库的使用 python爬虫从入门到放弃（六）之 BeautifulSoup库的使用

爬虫获取新闻的内容【5】

python爬虫从入门到放弃（六）之 BeautifulSoup库的使用

Day 4【Datawhale】爬虫入门学习——学习BeautifulSoup

python爬虫基础入门——利用requests和BeautifulSoup

BeautifulSoup入门

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)