BS4 keep on!

版权声明:本文为博主原创文章,欢迎转载。 https://blog.csdn.net/u011521609/article/details/63761025

怎么BS4就这么难?

周末整体来说任务完成的还好,加上北京今日pm2.5超过200!想到近日爬取某网站不顺利,于是想摆脱火车头,彻底使用python,下午精神不错,又复习了一遍:
Python爬虫利器二之Beautiful Soup的用法

还看了其他网络资料 http://www.36dsj.com/archives/71046 ,这篇资料还让我看到了使用py 数据分析库 pandas 和 numpy的价值,决定学习,但是这次还是败了,使用bs4就是定位不到自己想要的,晚上花费了半天功夫用正则表达式拼凑了一个。但这个一定要学的,今后爬虫肯定要在全python环境下搞定。明日继续尝试,一个一个标签定位尝试,加上正则模糊匹配。

下面是今日的小收获,目前来看还是量变:

print (soup.prettify()) #打印soup的内容,将一些内容做转化

1,name即通过找tag的string 2,找关键字 或者通过正则表达式 3,text()参数 class需要加下划线 class_

css的查找方法五种

bs xpath css 感觉都差不多 加上正则确实更加强大了

发现了 使用class(r语言下用的) type查看数据类型是多么的重要!

3-22日 在飞机上再看并且和xml xpath做了比较,突然感觉是真懂了,并且晚上吃饭前等人的时候做了一下,使用bs4真的解析出内容,之前使用selenium找到唯一的元素不难,使用bs4稍难,至少不能单独使用tag,使用 soup.find_all 或者用css 即soup.select找到然后遍历即可以打印出内容。

当天同时还收获了使用多个headers, 这样对于不用代理的小伙伴再加上每次采集前等等,一般对方就不会封了,因为多个headers代表不同的浏览器,正常认为就是这个ip里不同的人再浏览,在加上每次等一下,同时单次不要采集更多还是可行的。

现在反扒越来越高明,下一步就是学会同时用代理,也全部转向python

扫描二维码关注公众号,回复: 3080739 查看本文章

猜你喜欢

转载自blog.csdn.net/u011521609/article/details/63761025
BS4
今日推荐