[Combate del rastreador de Python] conceptos básicos del rastreador e instalación del entorno de Python

Prólogo

Es la mayoría de los reptiles comunes los proyectos de desarrollo de Python, pero el reptil en sí es variados objetos de aplicación (texto, video, imágenes, otros ficheros, etc.), el vídeo serie de cursos, que se van a plantear con un número de casos fueron proyectos reptiles Explique en el combate real, ayude a todos a realizar un combate real en el proyecto de reptiles y cultive el proceso real de análisis del proyecto de reptiles. (Cada video tutorial de esta serie se controlará durante aproximadamente 5-6 minutos)

El primer artículo, conceptos básicos del rastreador e instalación del entorno Python

[Combate del rastreador de Python] Construcción del entorno de Python e instalación del módulo del rastreador

¿Qué es un reptil?

Los rastreadores web (también conocidos como arañas web, robots web) son programas o scripts que automáticamente obtienen información de Internet de acuerdo con ciertas reglas.

Antes que nada, tenemos que entender los riesgos legales de los reptiles, después de todo, solo somos programadores y no usamos estos datos para obtener ganancias ilegales.

Los riesgos legales de los rastreadores
1. Rastreo ilegal y uso de contenido prohibido por el sitio objetivo contra la voluntad del sitio web;
2. El rastreador interfiere con el funcionamiento normal del sitio web visitado;
3. Rastreo de tipos específicos de datos o información protegida por ley .
Entonces, como desarrollador de rastreadores, ¿cómo evitar riesgos?

1. Cumplir estrictamente con el acuerdo de robots establecido en el sitio web;
2. Evitar la interferencia con el funcionamiento normal del sitio web visitado;
3. Evitar el uso de datos rastreados para la comercialización;
4. Al usar y difundir la información capturada, el instituto debe ser revisado Si se determina que el contenido capturado pertenece a la información personal del usuario, la privacidad o los secretos comerciales de otras personas, debe detenerse y eliminarse a tiempo.
Dicho un montón, de hecho, prometemos hacer dos cosas.

1. Podemos atrapar lo que Baidu puede atrapar, y no atrapar lo que Baidu no puede atrapar. No afecta el funcionamiento normal del sitio web de destino al capturar.

2. No utilice directamente los datos que rastrea para la comercialización.

Pasos de instalación del entorno Python:
compre la versión del servidor Alibaba Cloud (Windows) o prepare una máquina Windows

Descargue el software relacionado (python) e instálelo

Los tutoriales relacionados pueden referirse a: 1. Instalación y configuración de Python

Lo que hemos descargado es: https://npm.taobao.org/mirrors/python/ Elija la versión de Windows de x64

Una vez completada la instalación, ejecute cmd para ejecutar python para ver si se ejecuta correctamente

Modificar fuente doméstica pip

Haga clic para ver

Instrucciones relacionadas con la instalación

python -m pip install --upgrade pip
pip install jupyter
pip install selenium
pip install pyquery
pip install request
# Ejecutar jupyter notebook
jupyter notebook
1
2
3
4
5
6
7
Los módulos instalados anteriormente son:

request es una biblioteca http básica que podemos usar para solicitar sitios http o https.

Selenium es en realidad una herramienta de prueba integrada, pero podemos usar la simulación de prueba para realizar el funcionamiento de la simulación del sitio web. En términos simples, es una simulación artificial para visitar el sitio web.

La biblioteca de pyquery también es una biblioteca de análisis de páginas web muy potente y flexible. Si ha utilizado Jquery, también se sentirá cómodo con ella.

jupyter Un IDE web que puede ejecutarse en tiempo real y depurar en tiempo real.

Resumen:

Este artículo presenta brevemente los reptiles y las regulaciones relacionadas con los reptiles. Las instrucciones de instalación también se proporcionan mediante video. En el próximo artículo, realizaremos nuestra primera serie real de proyectos: rastrear la lista de Baidu Fengyun para prepararnos para los proyectos posteriores.

 

 

————————————————

Supongo que te gusta

Origin www.cnblogs.com/dfs23/p/12709893.html
Recomendado
Clasificación