jsoup 获取文档不全的解决方法 - 代码天地

jsoup 获取文档不全的解决方法

企业开发 2018-05-09 21:50:50 阅读次数: 0

jsoup是个好东东，有了它，再也不用从底层开始解析html文档了，而且如果文档是xml或者json的，利用它做转换也是极好极方便的，而且如果你访问的url存在302跳转，他回直接解析跳转后的内容，太强大了，不过在解析html的时候我发现了一个问题，代码如下


 Document  doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true)..get();

            JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());

我发现返回的数据总是不全，大概是1024*1024的长度,我在浏览器直接调用此接口返回的文档是完整的，但是用jsoup确实半截文档，我怀疑jsoup的内部的问题，或来我调试追踪代码，追踪到如下文档，在HttpConnection中

dataStream = conn.getErrorStream() != null ? conn.getErrorStream() : conn.getInputStream();
                        bodyStream = res.hasHeaderWithValue(CONTENT_ENCODING, "gzip") ?
                                new BufferedInputStream(new GZIPInputStream(dataStream)) :
                                new BufferedInputStream(dataStream);

                        res.byteData = DataUtil.readToByteBuffer(bodyStream, req.maxBodySize());

玄机就在req.maxBodySize();中，我看了一下maxBodySize初始化的代码，原来默认的是1024*1024，so ga，终于找到问题原因了，直接把代码改成如下代码


 Document  doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true).maxBodySize(Integer.MAX_VALUE).get();

            JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());

运行ok，搞定

猜你喜欢

转载自nonobaba.iteye.com/blog/2358452

jsoup 获取文档不全的解决方法

Jsoup方法

Jsoup对HTML 文档清理

jsoup 获取json

Jsoup获取网页标题

Jsoup Document的获取

Jsoup 获取子节点

jsoup常用方法

jsoup

使用JSOUP解析HTML文档

Jsoup解析网页html文档

2020.04.13 Jsoup解析xml文档

httpClient获取Jsoup解析网页

网页内容获取工具 jsoup

JSoup获取网页中的链接

Jsoup解析Html获取内容

jsoup获取文章内容

Jsoup获取所有链接

Jsoup解析HTML实例及文档方法详解

jsoup方式解决跨域

【使用注意】Jsoup的select方法

Jsoup解析Html中文文档

【Java】JSOUP请求JSON 及解决jsoup不能完整获取响应内容的问题

jsoup入门-获取数据并修改-总结

Jsoup解析获取品花社图片

jsoup获取script标签中的内容

Jsoup获取url所有链接

Jsoup获取网页全部原始内容

JAVA 利用Jsoup 在网络获取数据

使用Jsoup获取csdn博客数据

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)