Python extrae regularmente el contenido de la clase div llamada Post-body - Code World

Python extrae regularmente el contenido de la clase div llamada Post-body

Language 2023-06-25 06:40:18 views: null

Puede usar el módulo re incorporado de Python para extraer el contenido de la clase div llamada Post-body.Los pasos específicos son los siguientes:

Importar el módulo re:import re
Defina expresiones regulares para que coincidan con las etiquetas div y los atributos de clase correspondientes, por ejemplo:

pattern = r'<div class="Post-body"[^>]*>(.*?)</div>'

Lo que hace esta expresión regular es:

<div class="Post-body": Coincide con <div class="Post-body"las etiquetas div que comienzan con;
[^>]*>: Coincide con >cualquier carácter que no sea 0 o más veces hasta que se encuentre >; la función de esta parte es hacer coincidir otros atributos en la etiqueta div;
(.*?): Use coincidencias no codiciosas para hacer coincidir todo;
</div>: coincide con </div>las etiquetas div que terminan en , para garantizar que el contenido coincidente cumpla con los criterios que necesitamos.

Utilice el método re.findall() para hacer coincidir todo el texto coincidente, por ejemplo:

html_str = "这是一个 <div class='Post-body'>需要提取的内容</div>"
match_list = re.findall(pattern, html_str, re.S)

Esto extraerá el contenido de todos los divs con clase Post-body en la cadena y los almacenará en una lista (en este caso, solo hay un elemento en la lista). Entre ellos, el parámetro re.S es para hacer coincidir el texto de varias líneas.

Procesar el contenido extraído. Según la agrupación de paréntesis en la expresión regular, el contenido extraído aparecerá como una cadena en la lista. En este ejemplo, el contenido extraído es "需要提取的内容".

Si desea extraer aún más el contenido de esta cadena, puede usar expresiones regulares para hacer coincidir nuevamente, o usar los métodos de procesamiento de cadenas de Python (como dividir, quitar, etc.).

Supongo que te gusta

Origin blog.csdn.net/qq_27487739/article/details/131144818

Python extrae regularmente el contenido de la clase div llamada Post-body

lxml extrae el contenido de la etiqueta html, tostring () no puede mostrar la solución china

Python extrae el contenido de Excel y divide las tablas según las necesidades

Python extrae el contenido de un área determinada en un archivo

[vue] Copie y pegue el contenido de la etiqueta div

Python extrae contenido entre cadenas

La primera llamada a un ejercicio de clase

Cuál es el punto de repetir la clase llamada al definir una nueva instancia de la clase?

Extrae el contenido entre paréntesis

El archivo wrfout de Python extrae datos de la estación meteorológica

Python extrae el código fuente de la operación del archivo especificado en carpetas anidadas

rastreadores Python arrastran el contenido de la página

Html2canvas intercepta la descarga de contenido div para resolver el desenfoque y el desplazamiento de la imagen

En realidad, la solución al problema de que el contenido y el color de fondo de la etiqueta escrita después de una etiqueta de imagen que cambia regularmente no aparece

Utilice los métodos de la clase de llamada para encontrar la suma, el promedio, el máximo y el mínimo de la matriz.

Llamada de miembros de la clase en C #

Cuando git extrae el código, mostrará el cambio de modo, pero el contenido real del archivo no ha cambiado.

Contenido de la clase de hoy 8-7

El rastreador 018_urllib biblioteca_cookie anti-crawling_post solicita la traducción de Baidu para obtener el contenido de traducción porcentual_y el contenido de traducción detallado --- notas de trabajo de Python 037

protobuf usa la reflexión para establecer el valor de la clase de mensaje y obtener el contenido del campo en la clase, y convertir la clase de mensaje al formato json

Python extrae datos de la tabla de palabras

Python extrae y clasifica temas de texto extensos según el algoritmo LDA y predice la categoría

clase llamada Vb.net desde el interior de otra clase

El estudio de Android llama a la clase Python

Opencv + python extrae objetos de cierto color en la imagen

Python: obtenga el contenido de la página web de CSDN y la salida como pdf

js manipula el contenido de la matriz

Método clase hija llamada de clase padre usando la interfaz: Java

Caso súper práctico, Python extrae contenido específico de PDF para generar un nuevo PDF

Cómo leer el contenido de la tabla de base de datos sql con python

Recomendado

Clasificación

Diario

Más

2024-05-12(22)

2024-05-11(31)

2024-05-10(32)

2024-05-09(31)

2024-05-08(18)

2024-05-07(35)

2024-05-06(4)

2024-05-05(0)

2024-05-04(17)

2024-05-03(8)