#scrapy 实战 # Rastreo de información del sitio web de ofertas (1)

Primero pegue la información de fondo del proyecto: la
Inserte la descripción de la imagen aquítabla anterior es la información que debe rastrearse. De acuerdo con los requisitos de extracción, primero analice dónde se distribuye el contenido que se va a extraer en el sitio web de destino.
Primero abra el sitio web de destino. Aquí, Tomaré Internet como ejemplo. La palabra clave es: Enrutador
Abra este sitio web: https://ss.ebnew.com/tradingSearch/index.htm Lo
que puede ver incluye: tipo de información, título, categoría de producto, método de oferta, fecha límite de licitación y fecha límite de licitación
Inserte la descripción de la imagen aquí
Abra uno de los detalles del proyecto e ingrese a la página secundaria:
puede ver el número de proyecto (aquí está vacío), la
Inserte la descripción de la imagen aquípágina de la industria continúa deslizándose hacia abajo, puede ver el número de proyecto, Inserte la descripción de la imagen aquíconfirme dónde está el contenido la necesidad está en la página, luego haga clic en Siguiente, confirme la ruta de realización del objetivo. Aquí se usa el marco scrapy. El campo del rastreador es relativamente conocido. Confirme la realización del marco. Luego, cree un proyecto scrapy paso a paso y
Inserte la descripción de la imagen aquíabra el terminal (puede operar en el terminal en pycharm):

Crea un proyecto scrapy:

proyecto de inicio scrapy zhaobiao

D:\爬虫\pythonProject\实战>scrapy startproject ZHAOBIAO
New Scrapy project 'ZHAOBIAO', using template directory 'd:\python3.8.6\lib\site-packages\scrapy\templates\project', created in:
    D:\爬虫\pythonProject\实战\ZHAOBIAO

You can start your first spider with:
    cd ZHAOBIAO
    scrapy genspider example example.co

Entrar en el proyecto

cd ZHAOBIAO

D:\爬虫\pythonProject\实战>cd ZHAOBIAO

D:\爬虫\pythonProject\实战\ZHAOBIAO>

Crea un archivo rastreador

scrapy genspider bilian "ebnew.com

D:\爬虫\pythonProject\实战\ZHAOBIAO>scrapy genspider bilian "ebnew.com"
Created spider 'bilian' using template 'basic' in module:
  ZHAOBIAO.spiders.bilian

D:\爬虫\pythonProject\实战\ZHAOBIAO>

El proyecto scrapy se ha creado correctamente y se ha creado el archivo rastreador bilian.
Inserte la descripción de la imagen aquíA continuación, debe configurar el contenido en scrapy,
principalmente configurando el encabezado de la solicitud y la IP del proxy.
Nota: Siempre que se trate de rastreo, la prioridad debe establecerse en la mente. Configure el encabezado de la solicitud y la IP del proxy,

Entonces, dónde configurar estos contenidos, debe limpiar y dominar el marco scrapy, y luego mostrarle el diagrama esquemático del marco scrapy:
Inserte la descripción de la imagen aquíel significado de cada componente, primero puede buscar cada concepto y diagrama de flujo de datos usted mismo ,
un artículo Todo el contenido del artículo será demasiado y el contenido de seguimiento estará en #scrapy 实战 # para rastrear la información del sitio web de licitación (2)

Supongo que te gusta

Origin blog.csdn.net/weixin_42961082/article/details/109922243
Recomendado
Clasificación