#Python爬虫(二)##太原理工大学机器人团队20天学习打卡day13

为了更好地提取信息,我们就需要先了解信息的标记方法,目前网页普遍使用HTML(HyperText Markup Language),可以说明文字,声音,图像,视频和链接的超文本标记语言
HTML基本格式
在这里插入图片描述
在这里插入图片描述在这里插入图片描述这三个可等同看待
在这里插入图片描述
HTML(标签树)内容遍历需要使用beautifulsoup库(安装beautifulsoup4),其是解析,遍历,维护标签树的功能库

在这里插入图片描述
beautifulsoup库有四种解析库,我们正常就用第一种解析HTML
在这里插入图片描述基本元素
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述我们在得到HTML内容后会发现其十分杂乱,内容不清晰
在这里插入图片描述这是我们可以使用bs4库中的prettify()
在这里插入图片描述在这里插入图片描述
在这里插入图片描述对特定内容的检索
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述知识点十分多且琐碎,需慢慢消化,下篇文章会讲实例,进行实战。

发布了13 篇原创文章 · 获赞 30 · 访问量 4968

猜你喜欢

转载自blog.csdn.net/weixin_46424753/article/details/104908270