jsoup入门-获取数据并修改-总结

参考http://www.open-open.com/jsoup/dom-navigation.htm，并总结
Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

具体api：

查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)
元素数据
attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames()
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容（例如：script和style标签)
tag() and tagName()
操作HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName), prependElement(String tagName)
html(String value)

使用选择器

方法
可以使用Element.select(String selector) 和 Elements.select(String selector) 方法实现：

File input = new File(“/tmp/input.html”);
Document doc = Jsoup.parse(input, “UTF-8”, “http://example.com/“);

Elements links = doc.select(“a[href]”); //带有href属性的a元素
Elements pngs = doc.select(“img[src$=.png]”);
//扩展名为.png的图片

Element masthead = doc.select(“div.masthead”).first();
//class等于masthead的div标签

Elements resultLinks = doc.select(“h3.r > a”); //在h3元素之后的a元素
说明
jsoup elements对象支持类似于CSS (或jquery)的选择器语法，来实现非常强大和灵活的查找功能。.

这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。

Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。

Selector选择器概述
tagname: 通过标签查找元素，比如：a
ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找元素
#id: 通过ID查找元素，比如：#logo
.class: 通过class名称查找元素，比如：.masthead

抽取属性文本html

方法
要取得一个属性的值，可以使用Node.attr(String key) 方法
对于一个元素中的文本，可以使用Element.text()方法
对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或 Node.outerHtml()方法
示例：

String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现
Element link = doc.select("a").first();//查找第一个a元素

String text = doc.body().text(); // "An example link"//取得字符串中的文本
String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址
String linkText = link.text(); // "example""//取得链接地址中的文本

String linkOuterH = link.outerHtml(); 
    // "<a href="http://example.com"><b>example</b></a>"
String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容

说明
上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用：

Element.id()
Element.tagName()
Element.className() and Element.hasClass(String className)
这些访问器方法都有相应的setter方法来更改数据.

处理url

问题
你有一个包含相对URLs路径的HTML文档，需要将这些相对路径转换成绝对路径的URLs。

方法
在你解析文档时确保有指定base URI，然后
使用 abs: 属性前缀来取得包含base URI的绝对路径。代码如下：

Document doc = Jsoup.connect("http://www.open-open.com").get();

Element link = doc.select("a").first();
String relHref = link.attr("href"); // == "/"
String absHref = link.attr("abs:href"); // "http://www.open-open.com/"

说明
在HTML元素中，URLs经常写成相对于文档位置的相对路径： …. 当你使用 Node.attr(String key) 方法来取得a元素的href属性时，它将直接返回在HTML源码中指定定的值。

假如你需要取得一个绝对路径，需要在属性名前加 abs: 前缀。这样就可以返回包含根路径的URL地址attr(“abs:href”)

因此，在解析HTML文档时，定义base URI非常重要。

如果你不想使用abs: 前缀，还有一个方法能够实现同样的功能 Node.absUrl(String key)。

示例

示例程序: 获取所有链接
这个示例程序将展示如何从一个URL获得一个页面。然后提取页面中的所有链接、图片和其它辅助内容。并检查URLs和文本信息。

运行下面程序需要指定一个URLs作为参数

package org.jsoup.examples;

import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
* Example program to list links from a URL.
*/
public class ListLinks {
public static void main(String[] args) throws IOException {
Validate.isTrue(args.length == 1, “usage: supply url to fetch”);
String url = args[0];
print(“Fetching %s…”, url);

    Document doc = Jsoup.connect(url).get();
    Elements links = doc.select("a[href]");
    Elements media = doc.select("[src]");
    Elements imports = doc.select("link[href]");

    print("\nMedia: (%d)", media.size());
    for (Element src : media) {
        if (src.tagName().equals("img"))
            print(" * %s: <%s> %sx%s (%s)",
                    src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),
                    trim(src.attr("alt"), 20));
        else
            print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));
    }

    print("\nImports: (%d)", imports.size());
    for (Element link : imports) {
        print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));
    }

    print("\nLinks: (%d)", links.size());
    for (Element link : links) {
        print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));
    }
}

private static void print(String msg, Object... args) {
    System.out.println(String.format(msg, args));
}

private static String trim(String s, int width) {
    if (s.length() > width)
        return s.substring(0, width-1) + ".";
    else
        return s;
}

}
org/jsoup/examples/ListLinks.java

示例输入结果
Fetching http://news.ycombinator.com/…

Media: (38)
* img: http://ycombinator.com/images/y18.gif 18x18 ()
* img: http://ycombinator.com/images/s.gif 10x1 ()
* img: http://ycombinator.com/images/grayarrow.gif x ()
* img: http://ycombinator.com/images/s.gif 0x10 ()
* script: http://www.co2stats.com/propres.php?s=1138
* img: http://ycombinator.com/images/s.gif 15x1 ()
* img: http://ycombinator.com/images/hnsearch.png x ()
* img: http://ycombinator.com/images/s.gif 25x1 ()
* img: http://mixpanel.com/site_media/images/mixpanel_partner_logo_borderless.gif x (Analytics by Mixpan.)

Imports: (2)
* link http://ycombinator.com/news.css (stylesheet)
* link http://ycombinator.com/favicon.ico (shortcut icon)