爬虫之笔记网络基础知识

爬虫之笔记网络基础知识

在这里插入图片描述
作为一个新手好奇宝宝,对于爬虫我也是很负责人的在听别人说,别人聊的热火朝天,而自己像个无知宝宝一样,终于,我下手了,我要开始了,我要来了。
还是中国的老话说的好,心急吃不了热豆腐。
我还是老步划,从基础开始干。
作为一个丁铛响的人,报班是不可能报的,学那咱们还是要学的。
话不多说,先导学习的地址
今天我在哔哩哔哩找到了一个视频,比较基础
https://www.bilibili.com/video/BV1Ek4y1B7Eb?p=2
下面就是我今天的笔记
还是老样子,先导入库。
这个库是会获取整个页面的信息
在这里插入图片描述
那我们要怎么样才能成为我们看得懂的信息
bs4就类似于整理。解析我们想要的数据
在这里插入图片描述
cookies的过时的发送
cookies类似于你在沙滩上行走的脚印,而这个脚印只有你的脚才对的上。比如,你在网址上面登录QQ,第一次输入了密码,在第二次就不要输入密码,直接登录
https://baike.baidu.com/item/cookie/1119
在这里插入图片描述超时设置,你会发现,里面有一串数字都不一样。
在这里插入图片描述proxies代理,点一下
设置代理,proxies参数,使用代理
在这里插入图片描述
requests得到的是整个页面的信息,然后在bs4来解析里面的信息,可以得到我们看得懂的文字。
在这里插入图片描述
四大对象种类————Tag____NavigableString————Comment————BeautifulSoup
四大对象种类,写的清楚明了,点击
在这里插入图片描述
可能存在于注释的那种 来添加一段占时不通过网页渲染出来的内容
在这里插入图片描述

文档树-直接子节点(爸爸的爸爸是爷爷)
在这里插入图片描述
想要子子孙孙读出来.descendants把某个标签内的子孙节点都显示出来。
也可以通过for循环来进行处理
在这里插入图片描述
节点内容,注意,soup.a.string与soup.p.string的输出是一样的
如果tag包含有多个(就能够调用.string的节点)而.string方法会返回None。
注意 空格和换行都算一个节点,那这样子soup.a.string与soup.p.string的输出是不一样的
在这里插入图片描述
如果想要获取tag 下面的多个内容
strings或者。string_strings(可以去除多余空白内容)。
在这里插入图片描述
parent获得当前tag的父节点
.parent可以获取当前元素的所有父辈节点
在这里插入图片描述
兄弟节点(当前节点在同一极的节点)
.next_sibling获取下一个兄弟节点
.prev_sibling获取上一个兄弟节点
类似于这种,好兄弟,排排站在这里插入图片描述

前后节点,节点的之前(之后)的所有节点,不分层次,注意与兄弟节点的区别,方法是
next_element
.previous_element
.next_elements
.previous_elements。
——————————————————————————————————————————————————————————搜索文档树——find_all
find_all可以获取当前tag的所有tag子节点
find_all()里面可以直接填的参数
在这里插入图片描述
标签名称,比如a,p,h1等
列表,比如[‘a’,‘b’]
True,找出所有子节点
正则表达式.
搜索文档树————find_all
keyward参数:
find_all(标签内属性名=属性值)
注意,要找class就写成class,因为class是python自带的关键词.
在这里插入图片描述
css选择器
soup.select()筛选元素。返回list
语法规则,标签名,不加任何修饰,cass名前面加点,id名前加#。
在这里插入图片描述
走了走了,在下不想掉头发
拜拜
不足+如何修改。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/m0_52456045/article/details/113151411