Jsoupコース:

postagentオペランド1のURL制限。はじめに

Jsoupは、URLアドレスを直接分析できるHTMLアナライザーですか?HTMLテキストコンテンツ。DQ、CSS、jQueryのようなメソッドを使用して、データを取得および処理することもできます。その主な機能。

1. URL、文字列、またはテキストからHTMLをクリアする

2.データを見つけて取得する

3. HTML要素、属性:テキストを処理します。

Jsoupは、Objectクラスによって宣言されたパブリックオブジェクトJsoupextendsを直接継承します

これは、Jsoupライブラリを使用したパブリックアクセスの基礎です。

第二に、メソッドの詳細

1.パブリック静的Documentparse(文字列html、文字列baseUri)は、ドキュメント内のhtmlを最小化します。ここで、任意のHTMLの任意のドキュメントツリーを作成できます。

中でも、baseUriとhtmlのurlは、通常、相対的な道路強度の形式で表現されます。BaseUriは、ルートパスの強度を調整するために使用されます。これは、HTMLのURLを分析する場合(相対トラフィックから絶対トラフィックまで)に特に重要です。

2.パブリック静的Documentparse(文字列html、文字列baseUri、パーサーパーサー)は、指定されたパーサーを使用してhtml行を分析します。

3.ドキュメント内のソーシャル静的ドキュメント分析(文字列html)htmlの静的行の分析。BaseUriはここにはリストされていません。html\\ ltに依存しています。基本的なhref \ ugt26タグ:

4.パブリック静的Connectionconnect(文字列url)は、指定されたurlで連絡先オブジェクトを作成します。これは通常、htmlページの取得または分析に使用されます。

たとえば、ドキュメント doc = Jsoup.connect( "http://example.com").userAgent( "Mozilla").data( "name"、 "jsoup")Get()

ファイル doc = Jsoup.connect( "http://example.com")Cookie( "auth"、 "token")。リリース();

5.パブリック静的Documentparse(ファイル入力、文字列charsetName、文字列baseUri)はIOExceptionをスローしてHTMLファイルを分析します

charsetNameは暗号化を指し、通常はUTF-8の方が安全です。ファイルが見つからない、ファイルが読めない、または暗号化が無効な場合、IOを除いて実行されます

インターネット価格写真

6.パブリック静的Documentparse(ファイル入力、文字列charsetName)はIOExceptionサイクルHTMLファイルをスローします。このファイルの場所は通常baseUriとして使用されます。残りは上記5と同じです。

7.パブリック静的Documentparse(InputStream入力、String charsetName、String baseUri)はIOExceptionをスローし、入力ストリームを読み取ってから、Documentオブジェクトで分析します。

8.パブリック静的Documentparse(InputStream入力、String charsetName、String baseUri、Parserパーサー)はIOExceptionをスローして、指定されたアナライザーを使用して入力ストリームを読み取り、それを分析します。

9. public static DocumentparseBodyFragment(string bodyHtml、string baseUri)は、ボディの一部のみを含むhtml部分を分析します。BaseUriがリストされている

10. public static DocumentparseBodyFragment(string bodyHtml)は、本文の一部のみを含むhtml部分を分析します。BaseUriが指定されていません

11.パブリック静的Documentparse(URL url、int timeoutMillis)は、ドキュメントのIOException urlで指定されたhtmlタグを破棄します。代わりに、これらを定期的に実行する必要があるアクションとして扱います。

戻りコードが 200でない場合、または誤った読み取りエラーが発生すると、IO例外が発生します。

12.パブリックスタティックStringclean(文字列bodyHtml、文字列baseUri、ホワイトポインターホワイトポインター)はホワイトリストタグを使用していますか?htmlに安全にアクセスするためにインバウンドhtmlをフィルターする属性 BaseUriがリストされている

13.パブリック静的Stringclean(文字列bodyHtml、白いインジケーターの白いインジケーター)は、白いインジケーターと属性フィルタリングを使用して、htmlフィルターが安全なhtmlを取得できないようにします。BaseUriが指定されていません

14. public static booleanisValid(string bodyHtml、whitelist whitelist)は、入力htmlに許可されたタグのみが含まれているかどうかを確認します:属性 JsoupクラスPostagentオペラURLアドレスcepfragment。JS

おすすめ

転載: www.cnblogs.com/blogst/p/12671120.html