从头学习爬虫(三十五)重构篇----WebMagic的坑

本文介绍WebMagic的一些用法以及用法。

一 ssl问题

老版本没有加支持协议github可能会遇到以下问题,更新最新版本或者使用以下解决方案

绕过ssl时,没有支持版本

 javax.net.ssl.SSLException: Received fatal alert: protocol_version 

问题解决参考

https://www.cnblogs.com/sunny08/p/8038440.html

解决方案:

重写HttpClientGenerator类

buildSSLConnectionSocketFactory方法

添加SSLv2Hello协议


二 post请求问题默认去重

逻辑记得不要重复否则一直会添加post请求

三 post请求缺少参数类型

我看了下底层就缺第三种

没办法包装下咯

request 包装下stringEntity


HttpUriRequestConverter类

addFormParams方法


加入stringEntity

四 site参数设置

不要乱加refer 

内容addheader不要gzip

正确是用 .setUseGzip(true)

site放通用header 比如UA cookie 

其他接受内容形式 发送形式 写在request里面

五 xpath

不支持.xpath("//a[contains(text(),'5')])

   支持.xpath("//a[contains(@data,'5')])



猜你喜欢

转载自blog.csdn.net/qq_36783371/article/details/80299163
今日推荐