java使用htmlunit爬取百度搜索信息 - 代码天地

java使用htmlunit爬取百度搜索信息

其他 2018-12-18 12:42:19 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_15144655/article/details/53419788

在maven项目里添加所需的开源包，这里我使用2.23版本

<dependency>
<groupId>net.sourceforge.htmlunit</groupId>
<artifactId>htmlunit</artifactId>
<version>2.23</version>
</dependency>

htmlunit的基本设置，实现百度高级搜索：

public static String Baidu(String keyword)throws Exception{
WebClient webclient = new WebClient()；
//ssl认证
//webclient.getOptions().setUseInsecureSSL(true);
//由于有的网页js书写不规范htmlunit会报错，所以去除这种错误让程序执行完全（不影响结果）
webclient.getOptions().setThrowExceptionOnScriptError(false);
webclient.getOptions().setThrowExceptionOnFailingStatusCode(false);
//不加载css
webclient.getOptions().setCssEnabled(false);
//由于是动态网页所以一定要加载js及执行
webclient.getOptions().setJavaScriptEnabled(true);
//打开百度高级搜索的网址
HtmlPage htmlpage = webclient.getPage("http://www.baidu.com/gaoji/advanced.html");
//获取网页from控件（f1为控件name）
HtmlForm form = htmlpage.getFormByName("f1");
HtmlSubmitInput button = form.getInputByValue("百度一下");
HtmlTextInput textField = form.getInputByName("q1");
textField.setValueAttribute(keyword);
final HtmlSelect htmlSelet=form.getSelectByName("rn");
htmlSelet.setDefaultValue("10");
//隐藏值
final HtmlHiddenInput hiddenInputtn = form.getInputByName("tn");
hiddenInputtn.setDefaultValue("baiduadv");
//发送请求（相当于点击百度一下按钮）获取返回后的网页
final HtmlPage page = button.click();
//获取网页的文本信息
String result = page.asText();
//获取网页源码
//String result = page.asXml();
//System.out.println(result);
webclient.close();
return result;
}

程序所对应的网页源码：

猜你喜欢

转载自blog.csdn.net/qq_15144655/article/details/53419788

java使用htmlunit爬取百度搜索信息

使用selenium爬取百度搜索的URL

使用HtmlUnit抓取百度搜索结果

python--输入检索词自动爬取百度搜索页标题信息

python百度搜索url爬取图片

百度搜索关键词爬取

python爬取百度搜索内容链接

【爬虫】模拟百度搜索，爬取搜索界面源代码

使用Java调用百度搜索

百度搜索使用技巧

Python爬虫百度360信息搜索并爬取

urllib基础-利用网站结构爬取网页-百度搜索

Python爬虫爬取百度搜索内容接口-xpath

HttpClient 实现爬取百度搜索结果（自动翻页）

python用selenium爬取百度搜索结果

Python爬取百度搜索的标题和真实URL的代码和详细解析

Python学习笔记16：爬取百度搜索图片的缩略图

Python网络爬虫与信息提取（14）—— 百度搜索关键字爬取并整理摘要、标题、关键字等

百度搜索

全网搜索一个人的痕迹，爬取百度搜索结果

python爬虫学习京东页面、亚马逊访问|、百度搜索、网上爬取图片 DAY2

手把手教你用Python爬取百度搜索结果并保存

Python3网络爬虫--爬取百度搜索结果（附源码）

百度搜索和百度信息流有什么区别？

java 实现DFA 算法（理论百度搜索）

最具含金量的百度搜索使用技巧

关于网络爬虫的的四个实例（爬取京东和亚马逊商品，百度搜索关键词，爬取一张图片）

类似百度搜索提示

调用百度搜索API

类百度搜索提示

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)