怎么BS4就这么难？

周末整体来说任务完成的还好，加上北京今日pm2.5超过200！想到近日爬取某网站不顺利，于是想摆脱火车头，彻底使用python，下午精神不错，又复习了一遍：
Python爬虫利器二之Beautiful Soup的用法

还看了其他网络资料 http://www.36dsj.com/archives/71046 ，这篇资料还让我看到了使用py 数据分析库 pandas 和 numpy的价值，决定学习，但是这次还是败了，使用bs4就是定位不到自己想要的，晚上花费了半天功夫用正则表达式拼凑了一个。但这个一定要学的，今后爬虫肯定要在全python环境下搞定。明日继续尝试，一个一个标签定位尝试，加上正则模糊匹配。

下面是今日的小收获，目前来看还是量变：

print (soup.prettify()) #打印soup的内容，将一些内容做转化

1，name即通过找tag的string 2，找关键字或者通过正则表达式 3，text()参数 class需要加下划线 class_

css的查找方法五种

bs xpath css 感觉都差不多加上正则确实更加强大了

发现了使用class（r语言下用的） type查看数据类型是多么的重要！

3-22日在飞机上再看并且和xml xpath做了比较，突然感觉是真懂了，并且晚上吃饭前等人的时候做了一下，使用bs4真的解析出内容，之前使用selenium找到唯一的元素不难，使用bs4稍难，至少不能单独使用tag，使用 soup.find_all 或者用css 即soup.select找到然后遍历即可以打印出内容。

当天同时还收获了使用多个headers，这样对于不用代理的小伙伴再加上每次采集前等等，一般对方就不会封了，因为多个headers代表不同的浏览器，正常认为就是这个ip里不同的人再浏览，在加上每次等一下，同时单次不要采集更多还是可行的。

现在反扒越来越高明，下一步就是学会同时用代理，也全部转向python

扫描二维码关注公众号，回复： 3080739 查看本文章

BS4 keep on!

怎么BS4就这么难？

猜你喜欢