私は恥ずかしい事典をクロールする専門家です!

  こんにちは、皆さん、私は暖かくはありません、私はコンピュータサイエンス学部のビッグデータメジャーの3年生です。私のニックネームはイディオム不温不火由来し、本来の意味は希望自己性情温和です。ブロガーは、インターネット業界の初心者として、一方では自分の学習プロセスを記録し、他方では自分が犯した過ちを要約するためにブログを書いて、自分と同じくらい早い段階にいる多くの若者を助けることを望んでいます。ただし、レベルが限られているため、必然的にブログに間違いが出てしまいますので、記載漏れがある場合は是非アドバイスをお願いします!とりあえず、ブログのホームページであるcsdnは1つだけです:https ://buwenbuhuo.blog.csdn.net/

1
本片博文为大家带来的是爬取糗事百科,我们是专业的!

完全なコードはGithubにあります。必要に応じて自分でダウンロードできます。

GIthubアドレス:https : //github.com/459804692/qsbk/tree/master


2


1.クロール前の準備

恥ずかしい百科事典公式サイト:https : //www.qiushibaike.com/

段落URL:https : //www.qiushibaike.com/text/

htmlブロガーの選択を解析する方法は、xpathを使用することです。理解できない場合は、次の2つの表を参照してください。xpathについて詳しく知りたい場合は、ブロガーから提供された公式
ドキュメントのリンクをクリックて学習できます。ブロガーは、読者が分析式の具体的な意味を理解できるように宣言します。

公式WebサイトのURL:https : //lxml.de/tutorial.html

  • 路径表达式
表情 解説
ノード名 このノードのすべての子ノードを選択します
/ ルートノードから選択
// 位置に関係なく、一致する選択範囲の現在のノードからドキュメント内のノードを選択します
現在のノードを選択
現在のノードの親ノードを選択します
@ 属性を選択
  • 匹配属性
ワイルドカード 解説
* 任意の要素ノードに一致
@ * 任意の属性ノードに一致
ノード() あらゆるタイプのノードに一致

1.1 Webページを表示する

3
上の図のマーク部分によると、私たちの主なポイントは次のとおりであることがわかります。

  1. 全体
  2. 著者名
  3. テキストコンテンツ
  4. タブターン

1.2ラベル分析

  • 1.まず、クロールするすべてのコンテンツがどこにあるかを知る必要があります

4
開発者オプションを確認すると、<div class ="coll old-style-coll">このタグがすべてのコンテンツの全体的な保存場所に対応していることがわかります。そのため、後続のすべてのコンテンツがこのタグのサブタグから抽出されていることもわかります。

いくつかの分析の後、次のようにすべてのテキストコンテンツを取得するための分析式を取得できます。

//div[@class = 'col1 old-style-col1']/div
  • 2.著者の名前の場所

5
上の写真から、<h2></h2>このタブで著者の場所を確認できます。

いくつかの分析の後、次のように著者を取得するための分析式を取得できます。

.//h2//text()
  • 3.著者の名前の場所

6
上の画像から、<div class ="content"></div>このラベル内の段落の位置を確認できます

いくつかの分析の後、次のように段落を取得するための分析式を取得できます。

.//div[@class='content']//text()
  • 4.タブページめくり

7
上の画像から、<ul class ="pagination"></ul>このタブでページの場所を確認できます。

いくつかの分析の後、次のようにページを取得するための分析式を取得できます。

//ul[@class='pagination']/li[last()]/a/@href

2.プロジェクトの具体的な実現

2.1新しいクローラープロジェクトqsbkを作成する

9
8

2.2設定

こぼれたプロジェクトを作成した後、設定をいくつか変更する必要があります。
10
ここでデフォルトはTrueであり、Falseに変更する必要があります。そうしないと、コンテンツをクロールできません。
11
この部分のコメントを外し、リクエストヘッダーを追加して、IDを偽装します。

2.3著者とテキストコンテンツを別々に抽出する

  • 1.タイプを確認する
 duanzidivs = response.xpath("//div[@class = 'col1 old-style-col1']/div")
        print("=")
        print(type(duanzidivs))
        print("=")

12
実行することでSelectorListタイプであることがわかります

  • 2.ループトラバーサルを使用して、著者とテキストコンテンツを別々に印刷する
        for duanzidiv in duanzidivs:
            # strip() 去除前后的空白字符
            author = duanzidiv.xpath(".//h2//text()").get().strip()
            content = duanzidiv.xpath(".//div[@class='content']//text()").getall()
            content = "".join(content).strip()
            print(author)
            print(content)

13

2.4パイプラインを介してデータを保存する

  • 前提条件の準備:ITEM_PIPELINES制限の自由化

14

  • 1.最初の方法
class QsbkPipeline:
        def __init__(self):
            self.fp = open("duanzi.json","w",encoding="utf-8")


        def open_spider(self,spider):
            print('爬虫开始了 ...')


        def process_item(self, item, spider):
            item_json = json.dumps(dict(item),ensure_ascii=False)
            self.fp.write(item_json+'\n')
            return item

        def close_spider(self,spider):
            self.fp.close()
            print('爬虫结束了 ...')

演算結果:
15

  • 2. 2番目の方法:データ量が少ない場合に使用しますJsonItemExporter
from scrapy.exporters import JsonItemExporter
class QsbkPipeline:
    def __init__(self):
        self.fp = open("duanzi.json","wb")
        self.exporter = JsonItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')
        self.exporter.start_exporting()

    def open_spider(self,spider):
        print('爬虫开始了 ...')


    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider(self,spider):
        self.exporter.finish_exporting()
        self.fp.close()
        print('爬虫结束了 ...')

演算結果:
16

  • 3. 3番目の方法:より多くのデータを使用するJsonLinesItemExporter
from scrapy.exporters import JsonLinesItemExporter
class QsbkPipeline:
    def __init__(self):
            self.fp = open("duanzi.json","wb")
            self.exporter = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')
            self.exporter.start_exporting()


    def open_spider(self,spider):
        print('爬虫开始了 ...')

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider(self,spider):
        self.fp.close()
        print('爬虫结束了 ...')

演算結果:
17

2.5アイテムの定義

18
それはだscrapyあなたが直接リターン辞書を定義することができないということではないが、一般的にお勧めしますitem定義するために今それをして、それを呼び出します。

ではitemそれぞれの定義authorcontent

class QsbkItem(scrapy.Item):
    author = scrapy.Field()
    content = scrapy.Field()

ではqsbk_spider次のように変更する必要があります
19

2.6複数ページのクロールの実装

  • 前提条件の準備:DOWNLOAD_DELAY制限を解除して1に変更します
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 1
  • 2.コードの実装
# 定义一个基本的域名
base_domain = "https://www.qiushibaike.com"


next_url = response.xpath("//ul[@class='pagination']/li[last()]/a/@href").get()
# 进行一个简单的判断
if not next_url:
   return
else:
  yield scrapy.Request(self.base_domain+next_url,callback=self.parse)
  • 3.実行して結果を表示する

20

3.完全なコード(変更された部分のみがここに提供されています。完全なカタログとコードはGithubで表示できます)

  • 1. qsbk_spider
import scrapy

from scrapy.http.response.html import HtmlResponse
from scrapy.selector.unified import SelectorList

# 继承scrapy.Spider类
from scrapy_demo.qsbk.qsbk.items import QsbkItem


class QsbkSpiderSpider(scrapy.Spider):
    name = 'qsbk_spider'
    # allowed_domains 指定域名,可以限制爬虫的范围
    allowed_domains = ['qiushibaike.com']
    # start_urls 开始链接 一般一个即可
    start_urls = ['https://www.qiushibaike.com/text/page/1/']
    base_domain = "https://www.qiushibaike.com"

    def parse(self, response):
        # SelectorList
        duanzidivs = response.xpath("//div[@class = 'col1 old-style-col1']/div")
        for duanzidiv in duanzidivs:
            # Selector
            author = duanzidiv.xpath(".//h2//text()").get().strip()
            content = duanzidiv.xpath(".//div[@class='content']//text()").getall()
            content = "".join(content).strip()
            item = QsbkItem(author=author, content=content)
            yield item
        next_url = response.xpath("//ul[@class='pagination']/li[last()]/a/@href").get()
        if not next_url:
            return
        else:
            yield scrapy.Request(self.base_domain+next_url,callback=self.parse)

  • 2.アイテム
import scrapy


class QsbkItem(scrapy.Item):
    author = scrapy.Field()
    content = scrapy.Field()
  • 3.パイプライン
from scrapy.exporters import JsonLinesItemExporter
class QsbkPipeline:
    def __init__(self):
            self.fp = open("duanzi.json","wb")
            self.exporter = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')
            self.exporter.start_exporting()


    def open_spider(self,spider):
        print('爬虫开始了 ...')

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

    def close_spider(self,spider):
        self.fp.close()
        print('爬虫结束了 ...')
  • 4.設定

BOT_NAME = 'qsbk'

SPIDER_MODULES = ['qsbk.spiders']
NEWSPIDER_MODULE = 'qsbk.spiders'


# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 1


# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
    
    
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
}



# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    
    
   'qsbk.pipelines.QsbkPipeline': 300,
}

良い日はいつでも短いです。引き続き話したいと思いますが、このブログ投稿は終了しました。足りなくても心配いりません。またお会いしましょう!


12

  良い本は百回読むのに飽きることはありません。そして、私が聴衆の中で最も美しい少年になりたいのであれば、私は学習、知識を使って自分の運命を変える、ブログを使って成長を目撃する、そして行動を使って私のハードワークを証明することで、より多くの知識を得ることを主張しなければなりません。
  私のブログが参考になれば、私のブログの内容が気に入ったら、“点赞” “评论”“收藏”3つのリンククリックしてください好きな人は運が悪くなく、毎日元気いっぱいになるそうです!あなたが本当に売春婦になりたいのなら、私はあなたが毎日幸せであることを望み、私のブログにようこそ。
  コードワードは簡単ではなく、あなたのサポートはそれに固執する私の動機です。关注気に入ったら忘れずに!

13

14

おすすめ

転載: blog.csdn.net/qq_16146103/article/details/108670257
おすすめ