Jsoup获取网页全部原始内容

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xzm_rainbow/article/details/77203760

Jsoup可以对HTML页面进行分析和元素的提取,有点类似于DOM编程。

对Jsoup常用的方式是将HTML解析成Document对象,再对之进行操作。

Jsoup也可以提取给定URL的原始HTML文档,在发送请求时,同样可以设置Cookie、data、charset等条件,Demo如下:


import org.jsoup.Connection;
import org.jsoup.Jsoup;

import java.util.HashMap;
import java.util.Map;
/**
 * <pre>
 *     <b>Title: Jsoup Demo</b>
 *     <hr/>
 *     <b>Comments:</b><br/>
 *           通过Jsoup的connect方法获取Connection对象
 *           再用Connection对象的execute方法获取Connection.Response对象
 *           使用Response对象,即可获取html原始文本内容
 * </pre>
 * Created by Lord_X_ on 2017/8/16 0:03.
 */
public class JsoupDemo {

    public static final String WEBSITE = "http://www.baidu.com";  // 站点URL,注意要加上协议(http://)

    public static Map<String, String> cookies = new HashMap<String, String>(); // cookie

    static {
        cookies.put("cookie_name", "cookie_value"); // 初始化cookie
    }

    public static void main(String[] args) {
        try {
            Connection.Response response = Jsoup.connect(WEBSITE)
                    .cookies(cookies)
                    .postDataCharset("UTF-8")
                    .execute();
            String body = response.body(); // 获取html原始文本内容
            System.out.println(body);
        } catch (Exception ex) {
            ex.printStackTrace();
        }
    }
}


猜你喜欢

转载自blog.csdn.net/xzm_rainbow/article/details/77203760
今日推荐