postagentオペランド1のURL制限。はじめに
Jsoupは、URLアドレスを直接分析できるHTMLアナライザーですか?HTMLテキストコンテンツ。DQ、CSS、jQueryのようなメソッドを使用して、データを取得および処理することもできます。その主な機能。
1. URL、文字列、またはテキストからHTMLをクリアする
2.データを見つけて取得する
3. HTML要素、属性:テキストを処理します。
Jsoupは、Objectクラスによって宣言されたパブリックオブジェクトJsoupextendsを直接継承します
これは、Jsoupライブラリを使用したパブリックアクセスの基礎です。
第二に、メソッドの詳細
1.パブリック静的Documentparse(文字列html、文字列baseUri)は、ドキュメント内のhtmlを最小化します。ここで、任意のHTMLの任意のドキュメントツリーを作成できます。
中でも、baseUriとhtmlのurlは、通常、相対的な道路強度の形式で表現されます。BaseUriは、ルートパスの強度を調整するために使用されます。これは、HTMLのURLを分析する場合(相対トラフィックから絶対トラフィックまで)に特に重要です。
2.パブリック静的Documentparse(文字列html、文字列baseUri、パーサーパーサー)は、指定されたパーサーを使用してhtml行を分析します。
3.ドキュメント内のソーシャル静的ドキュメント分析(文字列html)htmlの静的行の分析。BaseUriはここにはリストされていません。html\\ ltに依存しています。基本的なhref \ ugt26タグ:
4.パブリック静的Connectionconnect(文字列url)は、指定されたurlで連絡先オブジェクトを作成します。これは通常、htmlページの取得または分析に使用されます。
たとえば、ドキュメント doc = Jsoup.connect( "http://example.com").userAgent( "Mozilla").data( "name"、 "jsoup")Get()
ファイル doc = Jsoup.connect( "http://example.com")Cookie( "auth"、 "token")。リリース();
5.パブリック静的Documentparse(ファイル入力、文字列charsetName、文字列baseUri)はIOExceptionをスローしてHTMLファイルを分析します
charsetNameは暗号化を指し、通常はUTF-8の方が安全です。ファイルが見つからない、ファイルが読めない、または暗号化が無効な場合、IOを除いて実行されます
6.パブリック静的Documentparse(ファイル入力、文字列charsetName)はIOExceptionサイクルHTMLファイルをスローします。このファイルの場所は通常baseUriとして使用されます。残りは上記5と同じです。
7.パブリック静的Documentparse(InputStream入力、String charsetName、String baseUri)はIOExceptionをスローし、入力ストリームを読み取ってから、Documentオブジェクトで分析します。
8.パブリック静的Documentparse(InputStream入力、String charsetName、String baseUri、Parserパーサー)はIOExceptionをスローして、指定されたアナライザーを使用して入力ストリームを読み取り、それを分析します。
9. public static DocumentparseBodyFragment(string bodyHtml、string baseUri)は、ボディの一部のみを含むhtml部分を分析します。BaseUriがリストされている
10. public static DocumentparseBodyFragment(string bodyHtml)は、本文の一部のみを含むhtml部分を分析します。BaseUriが指定されていません
11.パブリック静的Documentparse(URL url、int timeoutMillis)は、ドキュメントのIOException urlで指定されたhtmlタグを破棄します。代わりに、これらを定期的に実行する必要があるアクションとして扱います。
戻りコードが 200でない場合、または誤った読み取りエラーが発生すると、IO例外が発生します。
12.パブリックスタティックStringclean(文字列bodyHtml、文字列baseUri、ホワイトポインターホワイトポインター)はホワイトリストタグを使用していますか?htmlに安全にアクセスするためにインバウンドhtmlをフィルターする属性 BaseUriがリストされている
13.パブリック静的Stringclean(文字列bodyHtml、白いインジケーターの白いインジケーター)は、白いインジケーターと属性フィルタリングを使用して、htmlフィルターが安全なhtmlを取得できないようにします。BaseUriが指定されていません
14. public static booleanisValid(string bodyHtml、whitelist whitelist)は、入力htmlに許可されたタグのみが含まれているかどうかを確認します:属性 JsoupクラスPostagentオペラURLアドレスcepfragment。JS