Curso de Jsoup:

Límite de URL del operando postagente 1. Introducción

Jsoup es un analizador de HTML que puede analizar directamente el contenido de texto HTML de las direcciones URL. También puede usar DQ, CSS y métodos similares a jQuery para obtener y procesar datos. Su función principal.

1. Borrar HTML de URL, cadena o texto

2. Encuentra y recupera datos

3. Manejar elementos html, atributo: texto.

Jsoup hereda directamente el objeto público Jsoupextends declarado por la clase Object

Esta es la base para el acceso público utilizando la biblioteca Jsoup.

Segundo, los detalles del método.

1. Documentparse estático público (string html, string baseUri) minimiza el html en el documento, donde puede crear cualquier árbol de documentos para cualquier HTML.

Entre ellos, baseUri y url de html generalmente se expresan en forma de fuerza relativa de la carretera. BaseUri se utiliza para ajustar la fuerza de su ruta raíz. Esto es especialmente importante cuando se analizan URL en html (desde el tráfico relativo hasta el tráfico absoluto).

2. Public Documentparse estático (string html, string baseUri, parser parser) usa el analizador especificado para analizar las líneas html.

3. Análisis de líneas estáticas de análisis de documentos estáticos sociales (cadena html) html en el documento. BaseUri no está en la lista aquí, depende de html \\ lt;. Etiquetas básicas href \ ugt26:

4. La conexión de conexión estática pública (url de cadena) crea un objeto de contacto con una url especificada, que generalmente se usa para recuperar o analizar páginas html.

Por ejemplo, el documento doc = Jsoup.connect ("http://example.com") .userAgent ("Mozilla") .data ("nombre", "jsoup") Get ()

Archivo doc = Jsoup.connect ("http://example.com"). Cookie ("auth", "token"). Release ();

5. Documentparse estático público (entrada de archivo, string charsetName, string baseUri) lanza IOException para analizar archivos HTML

charsetName se refiere al cifrado, generalmente UTF-8 es más seguro. Cuando no se puede encontrar el archivo o el archivo es ilegible o el cifrado no es válido, se ejecutará, excepto IO

Imagen del precio de internet .

6. Documentparse estático público (entrada de archivo, string charsetName) arroja el archivo HTML del ciclo IOException, la ubicación de este archivo generalmente se usa como baseUri. El resto es el mismo que el 5 anterior.

7. Documentparse estático público (entrada InputStream, String charsetName, String baseUri) arroja IOException, lee la secuencia de entrada y luego la analiza en el objeto Documento.

8. Documentparse estático público (entrada InputStream, String charsetName, String baseUri, Parser parser) lanza IOException para leer el flujo de entrada utilizando el analizador especificado para analizarlo.

9. El DocumentparseBodyFragment estático público (string bodyHtml, string baseUri) analiza la parte html, que contiene solo una parte del cuerpo. BaseUri está listado

10. El DocumentparseBodyFragment estático público (string bodyHtml) analiza la parte html, que contiene solo una parte del cuerpo. BaseUri no se especifica

11. Documentparse estático público (URL url, int timeoutMillis) descarta la etiqueta html especificada en la url IOException del documento. En cambio, trátelos como acciones que debe realizar regularmente.

Si el código de retorno no es 200, o un error de lectura incorrecto causará una excepción de E / S.

12. El uso de Stringclean estático público (string bodyHtml, string baseUri, puntero blanco, puntero blanco) utiliza etiquetas de lista blanca. Atributos para filtrar html entrante para acceder a html de forma segura. BaseUri está listado

13. El Stringclean estático público (string bodyHtml, indicador blanco, indicador blanco) usa el indicador blanco y el filtrado de atributos para no permitir que el filtro html se convierta en html seguro. BaseUri no se especifica

14. Public static booleanisValid (string bodyHtml, whitelist whitelist) verifica si el html de entrada contiene solo etiquetas permitidas: atributos. Clase Jsoup Postagent opera URL dirección cepfragment. JS

Supongo que te gusta

Origin www.cnblogs.com/blogst/p/12671120.html
Recomendado
Clasificación