JavaのHTMLパーサ[jsoup]

jsoup:

WHATWG HTML5の仕様を達成し、HTML構文解析と近代的なブラウザのDOMは同じであるjsoup。
1.グラブURL、ファイル、またはHTML文字列からとパース
2、DOMトラバーサルやCSSセレクタを使用して検索し、抽出データ
3、処理するHTML要素、属性、テキスト
4、セキュリティホワイトリストにユーザー準じの内容をクリアXSS攻撃を防止するために
5を、出力きれいなHTML

JARパッケージをダウンロード:

下载并安装jsoup[官网下载地址Jsoup.jar](https://jsoup.org/download)
Maven地址:
	<dependency>
 		<groupId>org.jsoup</groupId>
		 <artifactId>jsoup</artifactId>
		<version>1.12.1</version>
</dependency>

文档地址[官方文档](https://jsoup.org/cookbook/introduction/parsing-a-document)

文書を解析文字列から

文字列HTML =「First parse

  • ドキュメントに解析HTML。

    「;
    文書DOC = Jsoup.parse(HTML)。

分析体フラグメント

文字列HTML =「

Loremのイプサム。

「;
文書DOC = Jsoup.parseBodyFragment(HTML)。
Doc.body body要素=();

使用Jsoup.parseBodyFragment(文字列のHTML)方法。

URLからドキュメントを読み込み

あなたは、オンラインで入手し、HTML文書を解析する必要があり、その後、データ(画面キャプチャ)どこを見て

使用Jsoup.connect(文字列のURL)方法:

文書DOC = Jsoup.connect(「http://example.com/」)に.get();
列タイトル= doc.title()。

ファイルからドキュメントを読み込みます

使用静的Jsoup.parse(文字列たcharsetName、文字列BASEURI、中のファイル)方法:

ファイルの入力=新しいファイル( "を/ tmp / input.html");
文書DOC = Jsoup.parse(入力、「UTF-8」、「http://example.com/」)。

DOMメソッドを使用してブラウザのドキュメント

DOMドキュメントと同様の方法を使用するHTML解析後。

ファイルの入力=新しいファイル( "を/ tmp / input.html");
文書DOC = Jsoup.parse(入力、「UTF-8」、「http://example.com/」)。

元素の含有量= doc.getElementById(「コンテンツ」)。
要素リンク= content.getElementsByTag(「A」);
(素子リンク:リンク)のために{
文字列linkHref = link.attr(「HREF」)。
ストリングlinkText = link.text()。
}

変更

設定されたプロパティ値

Element.attr(文字列キー、文字列値)とElements.attr(文字列キー、文字列値)設定器プロパティを使用する方法。

あなたは、クラス要素のプロパティを変更する必要がある場合は、Element.addClass(文字列クラス名)とElement.removeClass(文字列クラス名)メソッドを使用します。

HTMLのクリーンアップ

クリーンアップ信頼されていないHTML(XSSを防ぐために)

指定された設定のホワイトリストのためのjsoupのHTMLクリーナー。

文字列の安全ではありません=

リンク

「;
文字列金庫= Jsoup.clean(危険、Whitelist.basic())。
//今:

リンク

キーワードAPI

发布了26 篇原创文章 · 获赞 0 · 访问量 713

おすすめ

転載: blog.csdn.net/YHM_MM/article/details/103495612