Tutorial básico de Python: extracción de direcciones de sitios en resultados de búsqueda basados en expresiones regulares de Python

@ Este artículo proviene del número público: csdn2299. Me gusta prestar atención al número público. Las
expresiones regulares de la institución académica no son exclusivas de Python. Recientemente, exporté todas las direcciones del sitio en los resultados de las búsquedas en Google, así que pensé en usar expresiones regulares de Python. Para extraer las direcciones del sitio en los resultados de búsqueda.

Esto implica varios problemas que deben resolverse:

1. Obtenga el texto del resultado de la búsqueda

Para obtener más direcciones, utilicé la función de búsqueda avanzada de Google, cada página muestra 100 resultados.

Después de obtener los resultados mostrados, puede ver el código fuente y guardarlo como un archivo de texto para tener el texto del resultado de la búsqueda

2. Analizar cómo extraer información del sitio.

Primero, debe analizar las páginas adquiridas para ver cómo se puede extraer la información del sitio.

Utilizo la función de perfil en la herramienta de desarrollo que viene con IE8 (aparecerá cuando presione F12) para ver qué formato especial me interesa. Inserte la descripción de la imagen aquí
De la imagen de arriba, puedo ver que el sitio que necesito está en la etiqueta, ¿Puedo usar expresiones regulares para extraer el texto?

3. Escriba una expresión regular para obtener la dirección del sitio

El siguiente paso es escribir expresiones, que escribí usando Python 3.2, fácil de usar ( _ )

El código es el siguiente, primero mantenga la página de resultados de búsqueda en e: /t3.txt, ejecute el siguiente código

import re
p = re.compile(r'<cite>([^<>\/].+?)</cite>')
f = open("e:/t3.txt", encoding='utf-8')
content = f.read()
print ("\n".join(p.findall(content)))

La operación es la siguiente: Inserte la descripción de la imagen aquí
Muchas gracias por leer
. Cuando elegí estudiar Python en la universidad, descubrí que me comía una mala base informática. No tenía una calificación académica. Esto
no es nada que hacer. Solo puedo compensarlo. El camino del contraataque, continúa aprendiendo el conocimiento central de Python, el estudio en profundidad de los conceptos básicos de la computadora, resuelto, si no estás dispuesto a ser mediocre, ¡únete a mí en la codificación y crece!
De hecho, no solo hay tecnología aquí, sino también cosas más allá de esas tecnologías. Por ejemplo, cómo ser un programador exquisito, en lugar de "seda de gallo", el programador en sí es una existencia noble, ¿no? [Haz clic para unirte] ¡ Quieres ser tú mismo, quieres ser una persona noble, vamos!

Publicado 54 artículos originales · Me gusta 22 · Visitas 30,000+

Supongo que te gusta

Origin blog.csdn.net/chengxun03/article/details/105567855
Recomendado
Clasificación