Resumen del proyecto ScrapyProject del rastreador de aprendizaje de Python

Nombre del proyecto: ScrapyProject

Introducción del proyecto:

1 Libros de rastreo http://www.shicimingju.com:

1). 请求图书详情页parse(self, response)函数的修改-ScrapyProject/ScrapyProject/spiders/book.py
2). 对章节详情页进行解析parse_chapter_detail函数的修改-ScrapyProject/ScrapyProject/spiders/book.py
3). 将采集的数据存储到文件中, pipeeline组件-ScrapyProject/ScrapyProject/pipelines.py
4). 设置文件中启动pipeline组件-ScrapyProject/ScrapyProject/settings.py

2 Tome la información detallada de los bienes, la situación de almacenamiento

 1. 用过sqlalchemy(ORM)将数据信息添加到数据库中
  2.日志信息的配置,图片的配置
  3.根据python数据类型解析商品的详情信息
  4.将尺寸信息序列化为json字符串,如果总库存存在 存储商品信息

Dificultades técnicas:

   1) 如何处理解析后的数据?
    2). 如何获取/下载小说章节详情页的链接并下载到本地?

Dificultades que encontré al escribir el proyecto

1. Cómo analizar la información importante que se debe rastrear en el sitio web
2. Cómo comprender el papel de los elementos en el proyecto
3. La elección de los recursos del proyecto de rastreo para escribir en la base de datos, es decir
4. Si la URL que se debe rastrear tiene un código de verificación de contraseña de usuario para iniciar sesión cómo resolver
URL del proyecto: https://gitee.com/huojin181/ScrapyProject.git

Supongo que te gusta

Origin blog.51cto.com/13810716/2489376
Recomendado
Clasificación