网络爬虫中Jsoup请求url - 代码天地

网络爬虫中Jsoup请求url

其他 2018-07-03 10:23:53 阅读次数: 0

使用jsoup写网络爬虫时，通过Jsoup.connect(url).get()获取html页面

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

下面是我写的一个案例欢迎大家参考：

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/*
 * author:合肥工业大学 管院学院 钱洋 
 *[email protected]
 *博客地址:http://blog.csdn.net/qy20115549/
*/
public class JsoupTest {
    public static void main(String[] args) throws IOException {
        /*
         * 解析一个字符串
        */
        String html = "First parse"
                + "Parsed HTML into a doc.";
        Document doc = Jsoup.parse(html);
        System.out.println(doc);
        /*
         * 解析url
        */
        String url="http://www.tripadvisor.com/SearchForums?q=airbnb&x=18&y=10&pid=34633&s=+";
        Document doc1=Jsoup.connect(url).userAgent("bbb").timeout(50000).get();
        Elements ele=doc1.select("table[class=forumsearchresults]").select("tr[class~=firstpostrow?]");
        for (Element elem:ele) {
            String _id=elem.attr("id");
            String _url="http://www.tripadvisor.com"+elem.select("td[onclick~=setPID?]").select("a").
                    attr("href");
            String _content=elem.select("td[onclick~=setPID?]").select("a").text();
            System.out.println(_id+"===="+_url+"===="+_content);
        }
    }
}

猜你喜欢

转载自blog.csdn.net/loster_li/article/details/78437289

网络爬虫中Jsoup请求url

Jsoup网络爬虫

网络爬虫技术Jsoup

JAVA Jsoup网络爬虫

网络爬虫——Jsoup

java jsoup 网络爬虫 jsoup解析html

【使用JSOUP实现网络爬虫】从一个URL加载一个Document

Java爬虫Jsoup -- 解析URL、String、File

Jsoup简单爬虫实战演练——解析URL

java爬虫中jsoup的使用

爬虫Spider 01 - 网络爬虫概述 | 爬虫请求模块 | URL地址编码模块 | 正则解析模块

Jsoup -- 网络爬虫解析器

网络爬虫入门(二)-Jsoup解析

网络爬虫--jsoup大杀器

网络爬虫之java jsoup解析信息

Java网络爬虫技术《二》Jsoup

使用Java+Jsoup实现网络爬虫

Java实现网络爬虫：Jsoup解析页面

Java网络爬虫（二）Jsoup使用

[爬虫进阶]使用Jsoup取代你的一切网络请求方法(java,post,get,代理IP) [爬虫进阶]使用Jsoup取代你的一切网络请求方法(java,post,get,代理IP)

爬虫Jsoup

jsoup爬虫

java爬虫（二）-- httpClient模拟Http请求+jsoup页面解析

jsoup爬虫发送get、post请求、解析html、获取json

Jsoup 发送post请求 org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404, URL=https:

爬虫网络请求1

爬虫-网络请求

爬虫前奏——网络请求

python爬虫网络请求

Pytrch爬虫实战学习笔记_3 网络请求urllib模块：设置IP代理+处理请求异常+解析URL+解码+编码+组合URL+URL连接

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)