JAVA 爬虫获取js动态生成的网页数据 - 代码天地

JAVA 爬虫获取js动态生成的网页数据

其他 2018-07-26 00:05:02 阅读次数: 0

问题：
有些网页数据是由js动态生成的，一般我们抓包可以看出真正的数据实体是由哪一个异步请求获取到的，但是获取数据的请求链接也可能由其他js产生，这个时候我们希望直接拿到js加载后的最终网页数据。

解决方法：
phantomjs
1.下载phantomjs，[官网]：http://phantomjs.org/
2.我们是windows平台，解压，会在bin目录下看到exe可执行文件，有它就够啦。
3.写一个parser.js：

system = require('system')  
address = system.args[1];
var page = require('webpage').create();  
var url = address;  

page.settings.resourceTimeout = 1000*10; // 10 seconds
page.onResourceTimeout = function(e) {
    console.log(page.content);      
    phantom.exit(1);
};

page.open(url, function (status) {  
    //Page is loaded!  
    if (status !== 'success') {  
        console.log('Unable to post!');  
    } else {  
        console.log(page.content);
    }
    phantom.exit(); 
  });

4.java调用

Runtime rt = Runtime.getRuntime();
        Process process = null;
        try {
            process = rt.exec("C:/phantomjs.exe C:/parser.js " +url);
            InputStream in = process.getInputStream();
            InputStreamReader reader = new InputStreamReader(in, "UTF-8");
            BufferedReader br = new BufferedReader(reader);
            StringBuffer sbf = new StringBuffer();
            String tmp = "";
            while ((tmp = br.readLine()) != null) {
                sbf.append(tmp);
            }
            return sbf.toString();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return null;

猜你喜欢

转载自blog.csdn.net/zeroctu/article/details/53818185

JAVA 爬虫获取js动态生成的网页数据

Java基于httpclient获取网页数据，实现简单网络爬虫

java爬虫抓取js/ajax动态生成的网页

无搜索条件根据url获取网页数据(java爬取网页数据)

Java爬虫获取网页表格数据

JAVA爬虫爬取网页数据数据库中,并且去除重复数据

Java网络爬虫-2 抓取指定URL网页数据以及解析

【java爬虫】jsoup爬取网页数据-搜索算法评测/竞品评测

Java多线程获取网页数据并更新到数据库

java简单的抓取网页数据

java网页数据抓取实例

java网页数据爬取

Java爬取网页数据

爬虫---获取网页数据的几种方式

Java+JS实现导出网页数据到Excel表格

Java抓取网页数据（原网页+Javascript返回数据）

JAVA HttpClient模拟网页登录抓取网页数据

有搜索条件根据url抓取网页数据(java爬取网页数据)

java/js获取网页代码

java工具类之网页数据爬取类

如何使用 Python 爬虫抓取动态网页数据

初学爬虫之通过urllib库获取网页数据

aardio动态获取网页数据，匹配数据

python selenium 获取动态网页数据

Java——获取上传的pdf页数

使用Java-selenium自动化测试技术获取网页数据（以上交所公告信息及监管信息为例）

Jsoup（java的HTML解析器）简介——使用Java抓取网页数据

python爬取网页的方法总结,python爬虫获取网页数据

Java爬网页数据，并存储到本地数据库中

java爬虫系列（二）——爬取动态网页

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)