java爬虫爬取动态页面记录 - 代码天地

java爬虫爬取动态页面记录

其他 2021-10-08 18:07:52 阅读次数: 0

最开始采用的HttpClient获取页面+Jsoup分析页面，但是获取不到想要的页面内容，发现自己想要的数据是js生成的，HttpClient加了头和Cookie还是获取不到，最后采用的htmlunit获取页面就可以了。

        WebClient webClient=new WebClient();
        WebClientOptions options = webClient.getOptions();
        options.setJavaScriptEnabled(true);
        options.setCssEnabled(false);
        options.setRedirectEnabled(true);
        try {
    
    
            HtmlPage htmlPage = webClient.getPage(url);
            // 等待JS驱动dom完成获得还原后的网页
            webClient.waitForBackgroundJavaScript(10000);
            String page=htmlPage.asXml();
            //分析页面
            analyse(page);
            webClient.close();
        } catch (IOException e) {
    
    
            e.printStackTrace();
        }

使用WebMagic时，除了核心包外记得导入webmagic-selenium依赖就行。

        <dependency>
            <groupId>us.codecraft</groupId>
            <artifactId>webmagic-selenium</artifactId>
            <version>0.7.5</version>
        </dependency>

猜你喜欢

转载自blog.csdn.net/wflsyf/article/details/119480950

java爬虫爬取动态页面记录

爬虫之动态页面爬取

爬虫：动态页面爬取Selenium

java网络爬虫-利用phantomjs和jsoup爬取动态ajax加载页面

python梳理爬虫思路：静态页面爬取 +动态页面爬取 + 需要登陆的页面爬取（实战应用）

Python爬虫之爬取动态页面数据

爬虫动态渲染页面爬取Selenium中级篇

爬虫之Selenium 动态渲染页面爬取

【python爬虫笔记】动态渲染页面爬取

【爬虫】利用 selenium 爬取动态加载页面

爬虫学习记录（五）————ajax动态爬取

Python爬虫爬取ajax动态加载页面——证监会法规爬取

JAVA爬虫框架WebMagic爬取ajax请求的页面数据

java 爬虫之使用jsoup爬取页面

爬取动态页面2

爬取动态页面原理

scrapy爬取动态页面

动态渲染页面爬取

java爬虫系列（二）——爬取动态网页

基于selenium实现动态爬取页面（java）

【Java-Crawler】爬取动态页面（WebMagic、Selenium、ChromeDriver）

【Java-Crawler】爬取动态页面（HtmlUnit、WebMagic）

爬虫学习之16：爬取简书网用户动态信息（异步加载页面的爬取）

python爬虫（三）爬取js动态页面之b站粉丝数观看数点赞数爬取

python爬虫--打开爬取页面

Python 爬虫 ——爬取Web页面图片

node js 爬虫爬取静态页面，

Python爬虫笔记：爬取单个页面

python简单爬虫，爬取整个页面

爬虫入门(三)爬取b站搜索页视频分析（动态页面，DBUtils存储）

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)