Python学習クローラープロジェクトScrapyProjectの概要

プロジェクト名:ScrapyProject

プロジェクト紹介:

1クロールブックhttp://www.shicimingju.com:

1). 请求图书详情页parse(self, response)函数的修改-ScrapyProject/ScrapyProject/spiders/book.py
2). 对章节详情页进行解析parse_chapter_detail函数的修改-ScrapyProject/ScrapyProject/spiders/book.py
3). 将采集的数据存储到文件中, pipeeline组件-ScrapyProject/ScrapyProject/pipelines.py
4). 设置文件中启动pipeline组件-ScrapyProject/ScrapyProject/settings.py

2商品の詳細情報、保管状況を把握

 1. 用过sqlalchemy(ORM)将数据信息添加到数据库中
  2.日志信息的配置,图片的配置
  3.根据python数据类型解析商品的详情信息
  4.将尺寸信息序列化为json字符串,如果总库存存在 存储商品信息

技術的な問題:

   1) 如何处理解析后的数据?
    2). 如何获取/下载小说章节详情页的链接并下载到本地?

プロジェクトの作成で遭遇した困難

1. Webサイトでクロールする重要な情報を分析する方法
2.プロジェクトでのアイテムの役割を理解する方法
3.データベースに書き込むためのクロールプロジェクトリソースの選択、つまり
4.クロールするURLにログインするためのユーザーパスワード確認コードがある場合解決方法
プロジェクトURL:https : //gitee.com/huojin181/ScrapyProject.git

おすすめ

転載: blog.51cto.com/13810716/2489376