Pythonのスクレイピーの基本

ばかげたことを言わないでください。

Scrapyの簡単な紹介

Scrapyは、Webサイトデータのクロールと構造化データの抽出のために記述されたアプリケーションフレームワークです。データマイニング、情報処理、履歴データの保存など、一連のプログラムで使用できます。

ライブラリをインストール

pip install scrapy
pip install pypiwin32

プロジェクトを作成する

コマンドで実行

scrapy startproject +项目名称

インストール後、次のディレクトリが表示されます

|--myspider/ 项目根目录
    |--scrapy.cfg项目配置文件
    |--myspider/ 爬虫程序开发模块
        |--spiders/爬虫程序所在的目录
            |---demo
        |--items.py采集的数据,定义封装模型类
        |--pipelines.py采集完成后对数据进行验证和存储模块
        |--middlewares.py中间件定义模块
        |--setting.py项目设置模块

ファイルコマンドを実行する

scrapy crawl baidu_com.py这样项目就启动了

以下はspiderフォルダーの下にbaidu_com.pyを作成するために添付されています

# -*- coding: utf-8 -*-
import scrapy
from scrapy.crawler import CrawlerProcess
class BaiduComSpider(scrapy.Spider):
    name = 'baidu.com'
    allowed_domains = ['www.baidu.com']
    start_urls = ['https://www.baidu.com/']

    def parse(self, response):
        yield {
    
    
            'title': response.xpath('//title/text()').extract_first()
        }


# 创建一个CrawlerProcess对象
process = CrawlerProcess() # 括号中可以添加参数

process.crawl(BaiduComSpider)
process.start()
# if __name__=="__main__":
#     tk = BaiduComSpider()
#     tk.parse()

効果図は以下の通り
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_37254196/article/details/108233334