【Java爬虫-HtmlUnit学习总结】

环境搭建

1 Maven依赖
2     <dependency>
3     <groupId>net.sourceforge.htmlunit</groupId>
4     <artifactId>htmlunit</artifactId>
5     <version>2.15</version>
6     </dependency>

1. 基本使用

1    final WebClient webClient=new WebClient();//创建对象
2    final HtmlPage page=webClient.getPage("https://www.baidu.com");//获取页面
3    System.out.println(page.asText());//asText() 顾名思义 获取所有文本
4    webClient.closeAllWindows();//关闭窗口
1   List<HtmlAnchor> achList=page.getAnchors();
2       for(HtmlAnchor ach:achList){
3       System.out.println(ach.getHrefAttribute());
4    }
1.HtmlUnit对Javascript的支持不是很好 
2.HtmlUnit对CSS的支持不是很好所以我们修改一下,
1   final WebClient webClient=new WebClient();
2       webClient.getOptions().setCssEnabled(false);//关闭css
3       webClient.getOptions().setJavaScriptEnabled(false);//关闭js
4    final HtmlPage page=webClient.getPage("https://www.baidu.com");
5    System.out.println(page.asText());
6    webClient.closeAllWindows();
 

1.1 模拟特定浏览器

1 //模拟chorme浏览器,其他浏览器请修改BrowserVersion.xxx常量
2 WebClient webClient=new WebClient(BrowserVersion.CHROME);

猜你喜欢

转载自www.cnblogs.com/iitxt/p/8980940.html