jsoup:
WHATWG HTML5の仕様を達成し、HTML構文解析と近代的なブラウザのDOMは同じであるjsoup。
1.グラブURL、ファイル、またはHTML文字列からとパース
2、DOMトラバーサルやCSSセレクタを使用して検索し、抽出データ
3、処理するHTML要素、属性、テキスト
4、セキュリティホワイトリストにユーザー準じの内容をクリアXSS攻撃を防止するために
5を、出力きれいなHTML
JARパッケージをダウンロード:
下载并安装jsoup[官网下载地址Jsoup.jar](https://jsoup.org/download)
Maven地址:
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.12.1</version>
</dependency>
文档地址[官方文档](https://jsoup.org/cookbook/introduction/parsing-a-document)
文書を解析文字列から
文字列HTML =「
- 「
ドキュメントに解析HTML。
「;
文書DOC = Jsoup.parse(HTML)。
分析体フラグメント
文字列HTML =「
Loremのイプサム。
「;文書DOC = Jsoup.parseBodyFragment(HTML)。
Doc.body body要素=();
使用Jsoup.parseBodyFragment(文字列のHTML)方法。
URLからドキュメントを読み込み
あなたは、オンラインで入手し、HTML文書を解析する必要があり、その後、データ(画面キャプチャ)どこを見て
使用Jsoup.connect(文字列のURL)方法:
文書DOC = Jsoup.connect(「http://example.com/」)に.get();
列タイトル= doc.title()。
ファイルからドキュメントを読み込みます
使用静的Jsoup.parse(文字列たcharsetName、文字列BASEURI、中のファイル)方法:
ファイルの入力=新しいファイル( "を/ tmp / input.html");
文書DOC = Jsoup.parse(入力、「UTF-8」、「http://example.com/」)。
DOMメソッドを使用してブラウザのドキュメント
DOMドキュメントと同様の方法を使用するHTML解析後。
ファイルの入力=新しいファイル( "を/ tmp / input.html");
文書DOC = Jsoup.parse(入力、「UTF-8」、「http://example.com/」)。
元素の含有量= doc.getElementById(「コンテンツ」)。
要素リンク= content.getElementsByTag(「A」);
(素子リンク:リンク)のために{
文字列linkHref = link.attr(「HREF」)。
ストリングlinkText = link.text()。
}
変更
設定されたプロパティ値
Element.attr(文字列キー、文字列値)とElements.attr(文字列キー、文字列値)設定器プロパティを使用する方法。
あなたは、クラス要素のプロパティを変更する必要がある場合は、Element.addClass(文字列クラス名)とElement.removeClass(文字列クラス名)メソッドを使用します。
HTMLのクリーンアップ
クリーンアップ信頼されていないHTML(XSSを防ぐために)
指定された設定のホワイトリストのためのjsoupのHTMLクリーナー。
文字列の安全ではありません=
「
文字列金庫= Jsoup.clean(危険、Whitelist.basic())。
//今: