【HTML Parser】解析HTML：基于第三方库Jsoup - 代码天地

【HTML Parser】解析HTML：基于第三方库Jsoup

编程语言 2019-06-22 11:47:03 阅读次数: 0

JSoup官方地址：http://jsoup.org

Apache HttpComponents官方地址：http://hc.apache.org/index.html

1、抓取HTML内容

这里我们使用HttpClient库，根据URL请求远端的HTML

public static String getHTMLFromURL(String url) {
    String html = null;
    HttpClient httpClient = new DefaultHttpClient();
    HttpGet httpGet = new HttpGet(url);
    try {
        HttpResponse httpResponse = httpClient.execute(httpGet);
        int resStatu = httpResponse.getStatusLine().getStatusCode();
        if (resStatu == HttpStatus.SC_OK) {
            HttpEntity entity = httpResponse.getEntity();
            if (entity != null) {
                html = EntityUtils.toString(entity);
            }
        }
    } catch (Exception e) {
        e.printStackTrace();
    } finally {
        httpClient.getConnectionManager().shutdown();
    }
    return html;
}

2、解析HTML

示例，打印百度的标题

> 解析，获得Document对象

Document doc = Jsoup.parse(html);

> 使用 CSS 或类似 JQuery 的 Selector 选择元素

扫描二维码关注公众号，回复： 6564423 查看本文章

Elements elements = doc.select("title");

> 打印元素的文本内容

System.out.println(ele.text());

String html = WebCrawler.getHTMLFromURL("http://www.baidu.com");
if (html != null) {
    Document doc = Jsoup.parse(html);
    Elements elements = doc.select("title");
    for (Element element : linksElements) {
        System.out.println(element.text());
    }
}

运行结果：

转载于:https://www.cnblogs.com/dyingbleed/archive/2013/03/20/2970841.html

猜你喜欢

转载自blog.csdn.net/weixin_34310785/article/details/93301857

【HTML Parser】解析HTML：基于第三方库Jsoup

爬虫2解析HTML页面-第三方库Beautiful Soup

使用node.js第三方库xpath进行html文档解析

基于webpack实现多html页面开发框架七引入第三方库如jquery

html css 对第三方字体加载

python第三方库：使用html2text把html转换为markdown格式

在html页面引入外部html的方法 (使用第三方插件)

iOS原生与html交互使用第三方WebViewJavascriptBridge

前端html第三方登录集合，微信，微博，QQ

微信小程序使用第三方组件wxParse加载富文本html

jsoup: Java HTML Parser试用

webpack4.x 配置下载第三方库,分离js成单个文件引入HTML 第十节

JSoup 解析html

jsoup——java解析html

html解析利器－JSOUP

Jsoup解析Html教程

Jsoup解析HTML

使用 jsoup 解析HTML

使用Jsoup解析html

Jsoup解析HTML片段

Jsoup解析完整的HTML

jsoup解析html 用法

不使用第三方框架获取html页面某个标签的某个属性值

HTML 内容保存到word文档（angular4调用第三方js插件实现）

Html

.html

【HTML】

Jsoup解析html及body片断

jsoup解析html的简单demo

HTML 解析器 jsoup

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)