从头学习爬虫(三十三)实战篇----那些年的坑

本文主要介绍下一直以来在爬虫中的那些坑

一 jsoup、html格式

上次虎扑出现的坑

请求里面


我的xpath写div[@class=piclist3']/table/tr/td/a 居然拿不到

而我用div[@class=piclist3']/table/tbody/tr/td/a  居然拿到了

浏览器里面


让我们觉得第三个怎么说的不对,然而我发现请求刚拿到的时候是没有这个tbody

那么这个是哪里来的。

我们代码实战下


很明显经过html ,自动按html 标准格式化了多了很多标签,实战中也要考虑到这个(html 的类是webmagic那个)

因为我在python里面同样写的代码

div[@class=piclist3']/table/tr/td/a 是可以拿得到

这又是为什么

我后来看了下 我用的etree 以树的结构去解析而不加html标准需要的标签所以可以

二 请求参数

Cookie、token、jsessionid注意变化

还有些不要header不要加  如Content-Length

三 浏览器和请求

再三提示浏览器不等于请求

还是拿老例子网易云音乐

浏览器地址http://music.163.com/#/playlist?id=2203927235

请求地址   http://music.163.com/playlist?id=2203927235



猜你喜欢

转载自blog.csdn.net/qq_36783371/article/details/80200547