环境搭建
1 Maven依赖
2 <dependency>
3 <groupId>net.sourceforge.htmlunit</groupId>
4 <artifactId>htmlunit</artifactId>
5 <version>2.15</version>
6 </dependency>
1. 基本使用
1 final WebClient webClient=new WebClient();//创建对象
2 final HtmlPage page=webClient.getPage("https://www.baidu.com");//获取页面
3 System.out.println(page.asText());//asText() 顾名思义 获取所有文本
4 webClient.closeAllWindows();//关闭窗口
1 List<HtmlAnchor> achList=page.getAnchors();
2 for(HtmlAnchor ach:achList){
3 System.out.println(ach.getHrefAttribute());
4 }
1.HtmlUnit对Javascript的支持不是很好
2.HtmlUnit对CSS的支持不是很好所以我们修改一下,
1 final WebClient webClient=new WebClient();
2 webClient.getOptions().setCssEnabled(false);//关闭css
3 webClient.getOptions().setJavaScriptEnabled(false);//关闭js
4 final HtmlPage page=webClient.getPage("https://www.baidu.com");
5 System.out.println(page.asText());
6 webClient.closeAllWindows();
1.1 模拟特定浏览器
1 //模拟chorme浏览器,其他浏览器请修改BrowserVersion.xxx常量
2 WebClient webClient=new WebClient(BrowserVersion.CHROME);