htmlunit 爬取新浪娱乐使用js获取数据

使用htmlunit 抓取页面http://ent.sina.com.cn/film/如果不启用js的支持则无法获取更多的数据

新建一个swing应用,基于maven

pom.xml添加引用

   <dependency>
            <groupId>net.sourceforge.htmlunit</groupId>
            <artifactId>htmlunit</artifactId>
            <version>2.33</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.11.3</version>
        </dependency>

添加一些导入

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlSubmitInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;
import java.util.List;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Element;

在一个按钮上添加这些操作

 final WebClient webClient = new WebClient(BrowserVersion.CHROME);//新建一个模拟谷歌Chrome浏览器的浏览器客户端对象
        webClient.getOptions().setThrowExceptionOnScriptError(false);//当JS执行出错的时候是否抛出异常, 这里选择不需要
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);//当HTTP的状态非200时是否抛出异常, 这里选择不需要
        webClient.getOptions().setActiveXNative(false);
        webClient.getOptions().setCssEnabled(false);//是否启用CSS, 因为不需要展现页面, 所以不需要启用
        webClient.getOptions().setJavaScriptEnabled(true); //很重要，启用JS
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());//很重要，设置支持AJAX
        HtmlPage page = null;
        try {
            page = webClient.getPage("http://ent.sina.com.cn/film/");//尝试加载上面图片例子给出的网页
            webClient.waitForBackgroundJavaScript(30000);//异步JS执行需要耗时,所以这里线程要阻塞30秒,等待异步JS执行结束
            String pageXml = page.asXml();//直接将加载完成的页面转换成xml格式的字符串
            //TODO 下面的代码就是对字符串的操作了,常规的爬虫操作,用到了比较好用的Jsoup库
            org.jsoup.nodes.Document document = Jsoup.parse(pageXml);//获取html文档
            List<Element> infoListEle = document.getElementById("feedCardContent").getElementsByAttributeValue("class", "feed-card-item");//获取元素节点等
            infoListEle.forEach(element -> {
                System.out.println(element.getElementsByTag("h2").first().getElementsByTag("a").text());
                System.out.println(element.getElementsByTag("h2").first().getElementsByTag("a").attr("href"));
            });
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            webClient.close();
        }

没问题.正常运行

htmlunit 爬取新浪娱乐 使用js获取数据

猜你喜欢

htmlunit 爬取新浪娱乐使用js获取数据