从头学习爬虫（三十三）实战篇----那些年的坑 - 代码天地

从头学习爬虫（三十三）实战篇----那些年的坑

其他 2018-05-13 04:34:00 阅读次数: 0

本文主要介绍下一直以来在爬虫中的那些坑

一 jsoup、html格式

上次虎扑出现的坑

请求里面

我的xpath写div[@class=piclist3']/table/tr/td/a 居然拿不到

而我用div[@class=piclist3']/table/tbody/tr/td/a 居然拿到了

浏览器里面

让我们觉得第三个怎么说的不对，然而我发现请求刚拿到的时候是没有这个tbody

那么这个是哪里来的。

我们代码实战下

很明显经过html ，自动按html 标准格式化了多了很多标签，实战中也要考虑到这个（html 的类是webmagic那个）。

因为我在python里面同样写的代码

div[@class=piclist3']/table/tr/td/a 是可以拿得到

这又是为什么

我后来看了下我用的etree 以树的结构去解析而不加html标准需要的标签所以可以

二请求参数

Cookie、token、jsessionid注意变化

还有些不要header不要加如Content-Length

三浏览器和请求

再三提示浏览器不等于请求

还是拿老例子网易云音乐

浏览器地址http://music.163.com/#/playlist?id=2203927235

请求地址 http://music.163.com/playlist?id=2203927235

猜你喜欢

转载自blog.csdn.net/qq_36783371/article/details/80200547

从头学习爬虫（三十三）实战篇----那些年的坑

Vue实战篇三十三：实现新闻的浏览历史

从头学习爬虫（三十四）实战篇----动漫之家漫画（Scrapy实战）

从头学习爬虫（三十一）实战篇----动漫之家漫画（Java实现）

从头学习爬虫（三十）实战篇----动漫之家漫画（分析）

从头学习爬虫（三十二）实战篇----动漫之家漫画（Python实现）

从头学习爬虫（二十九）实战篇----WebMagic爬CSDN博客 WebMagic入门实战下CSDN，20行代码实现爬取标题

深度学习实战篇之 ( 十三) -- TensorFlow之AlexNet

从头学习爬虫（三十五）重构篇----WebMagic的坑

C++学习第三十三篇

从头学习爬虫（二十三）重构篇----WebMagic框架分析之pipeline

从头学习爬虫（四十三）进阶篇----cookie和token注意事项

python学习笔记分享(三十三)网络爬虫(1)

学习总结(三十三)

三十三、scrapy的crawlspider爬虫

爬虫实战篇---12306抢票爬虫

爬虫实战篇——12306抢票爬虫

Shader学习笔记（实战篇）

【备忘】2018年Java菜鸟到大牛学习路线之实战篇

Python爬虫【实战篇】百度翻译

Python爬虫【实战篇】bilibili视频弹幕提取

爬虫实战篇--更换请求头

爬虫实战篇--更换代理ip

Python学习之旅（三十三）

RHCS(实战篇)

MQTT实战篇

zookeeper——实战篇

solr实战篇

JVM实战篇

Redis实战篇

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)