Java爬虫Jsoup -- 解析URL、String、File - 代码天地

Java爬虫Jsoup -- 解析URL、String、File

其他 2020-02-07 13:44:21 阅读次数: 0

package xxx.xxx.xxx;

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.junit.Test;

import java.io.File;
import java.net.URL;

public class JsoupFirstTest {
    @Test
    public void testUrl()throws Exception{
//        解析url地址，第一个参数是访问的url，第二个参数是访问时候的超时时间
        Document doc  = Jsoup.parse (new URL("http://itcast.cn"),  1000);
//    使用标签选择器，获取title标签中的内容
        String title = doc.getElementsByTag( "title").first().text();
//        打印
        System.out.println(title);
    }

    @Test
    public  void testString() throws Exception{
        String content = FileUtils.readFileToString(new File("C:\\Users\\tree\\Desktop\\test.html"),"utf8");
        Document doc = Jsoup.parse(content);
        String title = doc.getElementsByTag("title").first().text();
        System.out.println(title);
    }

    @Test
    public void testFile() throws Exception{
        Document doc = Jsoup.parse(new File("C:\\User\\tree\\Desktop\\test.html"), "utf8");
        String title = doc.getElementsByTag("title").first().text();
        System.out.println(title);
    }
}

}

结果：

在这里插入图片描述

虽然使用Jsoup可以替代HTTPClient直接发起请求解析数据，但是往往不会这样用，因为实际的开发过程中，需要使用到多线程、连接池，代理等等方法，而jsoup对这些的支持并不是很好。所以我们一般把jsoup仅仅作为Html解析工具使用。

三宝鸭

发布了81 篇原创文章 · 获赞 18 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_43542074/article/details/103113294

Java爬虫Jsoup -- 解析URL、String、File

java jsoup 网络爬虫 jsoup解析html

Java爬虫--Jsoup内容解析

网络爬虫之java jsoup解析信息

JAVA爬虫入门（二）Jsoup解析数据

JAVA爬虫HTML解析工具——jsoup的使用

Java实现网络爬虫：Jsoup解析页面

Java爬虫html解析神器Jsoup

java爬虫——HttpClient爬取jsoup解析

java爬虫（二）-- httpClient模拟Http请求+jsoup页面解析

Java爬虫系列三：使用Jsoup解析HTML

Java 爬虫学习（二）关于 Jsoup 解析元素

[Java爬虫_页面Jsoup解析Demo1]

JAVA网络爬虫02-Jsoup解析爬取结果

Jsoup简单爬虫实战演练——解析URL

jsoup解析与爬虫

jsoup解析html 爬虫规则

java 使用Jsoup解析URL网页信息

jsoup——java解析html

【Java】Jsoup解析一个body片断优化爬虫速度

网络爬虫中Jsoup请求url

JAVA爬虫学习jsoup

JAVA Jsoup网络爬虫

jsoup编写java爬虫

JAVA爬虫Jsoup

java爬虫框架jsoup

Java爬虫（Jsoup与WebDriver）

java爬虫-jsoup

【Java爬虫】Jsoup

java之jsoup爬虫

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)