Primero pegue la información de fondo del proyecto: la
tabla anterior es la información que debe rastrearse. De acuerdo con los requisitos de extracción, primero analice dónde se distribuye el contenido que se va a extraer en el sitio web de destino.
Primero abra el sitio web de destino. Aquí, Tomaré Internet como ejemplo. La palabra clave es: Enrutador
Abra este sitio web: https://ss.ebnew.com/tradingSearch/index.htm Lo
que puede ver incluye: tipo de información, título, categoría de producto, método de oferta, fecha límite de licitación y fecha límite de licitación
Abra uno de los detalles del proyecto e ingrese a la página secundaria:
puede ver el número de proyecto (aquí está vacío), la
página de la industria continúa deslizándose hacia abajo, puede ver el número de proyecto, confirme dónde está el contenido la necesidad está en la página, luego haga clic en Siguiente, confirme la ruta de realización del objetivo. Aquí se usa el marco scrapy. El campo del rastreador es relativamente conocido. Confirme la realización del marco. Luego, cree un proyecto scrapy paso a paso y
abra el terminal (puede operar en el terminal en pycharm):
Crea un proyecto scrapy:
proyecto de inicio scrapy zhaobiao
D:\爬虫\pythonProject\实战>scrapy startproject ZHAOBIAO
New Scrapy project 'ZHAOBIAO', using template directory 'd:\python3.8.6\lib\site-packages\scrapy\templates\project', created in:
D:\爬虫\pythonProject\实战\ZHAOBIAO
You can start your first spider with:
cd ZHAOBIAO
scrapy genspider example example.co
Entrar en el proyecto
cd ZHAOBIAO
D:\爬虫\pythonProject\实战>cd ZHAOBIAO
D:\爬虫\pythonProject\实战\ZHAOBIAO>
Crea un archivo rastreador
scrapy genspider bilian "ebnew.com
D:\爬虫\pythonProject\实战\ZHAOBIAO>scrapy genspider bilian "ebnew.com"
Created spider 'bilian' using template 'basic' in module:
ZHAOBIAO.spiders.bilian
D:\爬虫\pythonProject\实战\ZHAOBIAO>
El proyecto scrapy se ha creado correctamente y se ha creado el archivo rastreador bilian.
A continuación, debe configurar el contenido en scrapy,
principalmente configurando el encabezado de la solicitud y la IP del proxy.
Nota: Siempre que se trate de rastreo, la prioridad debe establecerse en la mente. Configure el encabezado de la solicitud y la IP del proxy,
Entonces, dónde configurar estos contenidos, debe limpiar y dominar el marco scrapy, y luego mostrarle el diagrama esquemático del marco scrapy:
el significado de cada componente, primero puede buscar cada concepto y diagrama de flujo de datos usted mismo ,
un artículo Todo el contenido del artículo será demasiado y el contenido de seguimiento estará en #scrapy 实战 # para rastrear la información del sitio web de licitación (2)