1. Introducción a los rastreadores

Primera impresión de reptil

Definición: un programa que captura automáticamente información de Internet, obteniendo información que es valiosa para nosotros de Internet.

Arquitectura del rastreador de Python

La arquitectura del rastreador de Python se compone principalmente de cinco partes, a saber, el programador, el administrador de URL, el descargador de páginas web, el analizador de páginas web y la aplicación (los datos valiosos rastreados).

  • Programador: equivale a la CPU de una computadora, que es principalmente responsable de programar la coordinación entre el administrador de URL, el descargador y el analizador.
    Administrador de URL: incluida la dirección URL que se rastreará y la dirección URL que se rastreó, para evitar el rastreo repetido de URL y la repetición de las URL de rastreo. Hay tres formas principales de realizar el administrador de URL, que se realiza a través de la memoria, la base de datos, y base de datos de caché.

  • Descargador de páginas web: descargue una página web pasando una dirección URL y convierta la página web en una cadena. El descargador de páginas web tiene urllib2 (el módulo básico oficial de Python) que incluye inicio de sesión, proxy, cookies, solicitudes (paquete de terceros)

  • Analizador de página web: analizar una cadena de página web puede extraer nuestra información útil de acuerdo con nuestros requisitos, o analizarla de acuerdo con el método de análisis de árbol DOM. El analizador de páginas web tiene expresiones regulares (intuitivamente, la página web se convierte en una cadena para extraer información valiosa a través de la coincidencia aproximada. Cuando el documento es más complejo, este método será muy difícil de extraer datos), html. Parser (integrado en Python), beautifulsoup (complemento de terceros, puede usar el html.parser incorporado de Python para analizar, también puede usar lxml para analizar, que es más poderoso en comparación con los otros), lxml (complemento de terceros -in, Can parse xml y HTML), html.parser, beautifulsoup y lxml se analizan en el árbol DOM.

  • Aplicación: Es una aplicación compuesta por datos útiles extraídos de páginas web.
    Inserte la descripción de la imagen aquí
    1


Puntos de conocimiento necesarios para proyectos de rastreadores posteriores: control razonable del proceso de ejecución del programa

Primero mira el siguiente código:

def main(var):
    print("hiya", var)

main(1)

if __name__ == "__main__":
    main(2)

El resultado de la ejecución es:

hiya 1
hiya 2

Mira otro ejemplo de código

print ("test1")
def Fun():
    print ("Fun")
def main():
    print ("main")
    Fun()
if __name__ == '__main__':
    main()

El resultado de la ejecución es:

test1
main
Fun

Python es un lenguaje interpretado y el proceso de ejecución se juzga según las siguientes reglas:

Cuando un programa de Python se ejecuta como un archivo py, el atributo de archivo __name__ es principal; cuando se importa como un módulo, el atributo de archivo __name__ es el nombre del archivo (nombre del módulo)

Python ejecuta la primera definición que no es de función y el código sin sangría de definición que no es de clase

En el seguimiento, juzgaremos el programa en ejecución actual y controlaremos la lógica de todo el programa en main.

if __name__ == '__main__':

  1. Imágenes del tutorial de novatos ↩︎

Supongo que te gusta

Origin blog.csdn.net/qq_43808700/article/details/113549010
Recomendado
Clasificación