前回、Scrapyの紹介事例を説明しましたが、ご理解いただいていると思います。詳しくは、初心者向けのScrapyクローラー操作をご参照ください。次に、スクレイプ操作を統合する別のケースに進みます。
1.クロールされたWebサイト
ここで私は杭州のデータ分析の位置を選択しました。URLは次のとおりです:https://search.51job.com/list/080200,000000,0000,32,9,99,%25E6%2595%25B0%25E6%258D %25AE%25E5%2588%2586%25E6%259E%2590,2,1.html?lang = c&postchannel = 0000&workyear = 99&cotype = 99&degreefrom = 99&jobterm = 99&companysize = 99&ord_field = 0&dibiaoid = 0&line =&welfare =
次に、クロールの詳細な手順
ここでは、Scrapyプロジェクトの作成などの基本的なScrapy操作は繰り返されません。忘れてしまった場合は、私の最後の記事を読むことができます:初心者のためのScrapyクローラー操作-目標にあなたを連れて行くための非常に詳細なケース
:仕事の名前、会社名、会社の種類、給与、仕事の情報(都市、経験、新入社員の数、リリース日付)、位置情報、ジョブアドレス、ジョブ詳細リンク、およびフィールドがmysqlに保存されます。
1.クロール情報の分析プロセス
各ジョブの情報は異なるため、クリックしてジョブの詳細ページにジャンプしてクロールする必要があります。ここでは、各投稿情報がdivに対応していることがわかります
。divをクリックしてジョブの詳細へのリンクを表示します。そこで、xpathを使用して各投稿の詳細なリンクを取得し、ジャンプして必要な情報を取得することを考えました。
上のブラックボックスは、非常に使いやすいGoogleプラグインのxpathヘルパーです。ダウンロードできます。
これは小さなショートカットです。選択した要素を右クリックしてxpathパスをコピーします。要素のxpathパスを取得し、それを変更してすべてのリンクを取得します。
[ジャンプ]をクリックして詳細ページに移動し、
クロールする必要のある情報を分割します。
2.特定のクロールコード
これらのファイルの意味は次のとおりです。
プロファイルプロジェクト:scrapy.cfg
スパイダー/:このフォルダーに爬虫類ファイルを書き込みました。ここにjob_detail.pyが
あります。init.py :通常は空のファイルですが、存在する必要があります。彼が嘘をついているわけではありません。__init__。pyディレクトリはディレクトリはパッケージではありません
items.py:プロジェクトのターゲットファイル、構造化フィールドの定義、クロールされたデータの保存
middlewares.py:プロジェクトミドルウェア
pipelines.py:プロジェクトパイプラインファイル
setting.py:プロジェクト設定ファイル
(1)、items.pyを書く
クロールするフィールド:
import scrapy
class ScrapyjobItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 职位名
positionName = scrapy.Field()
# 公司名
companyName = scrapy.Field()
# 公司类型
companyType = scrapy.Field()
# 薪资
salary = scrapy.Field()
# 工作信息(城市,经验,招聘人数,发布日期)
jobMsg = scrapy.Field()
# 职位信息
positionMsg = scrapy.Field()
# 工作地址
address = scrapy.Field()
# 工作详情连接
link = scrapy.Field()
(2)クローラーファイルをスパイダーフォルダーの下に書き込みます
注:ここに落とし穴があります。allowed_domainsを書いたときにwww.search.51job.comと書いたところ、データをクロールするときは常に空であることがわかりました。その後、Baiduが検索して、仕事の詳細からジャンプしたときであることがわかりました。リンク。元のドメイン名ではなく、ドメイン名がフィルタリングされます。ここでは、第1レベルのドメイン名に変更されます。
import scrapy
from scrapy_job.items import ScrapyjobItem
class JobSpiderDetail(scrapy.Spider):
# 爬虫名称 启动爬虫时必要的参数
name = 'job_detail'
allowed_domains = ['51job.com'] # 二次迭代时域名被过滤了 改成一级域名
# 起始的爬取地址
start_urls = [
'https://search.51job.com/list/080200,000000,0000,32,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%2588%2586%25E6%259E%2590,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=']
# 找到详细职位信息的链接 进行跳转
def parse(self, response):
# 找到工作的详情页地址,传递给回调函数parse_detail解析
node_list = response.xpath("//div[2]/div[4]")
for node in node_list:
# 获取到详情页的链接
link = node.xpath("./div/div/a/@href").get()
print(link)
if link:
yield scrapy.Request(link, callback=self.parse_detail)
# 设置翻页爬取
# 获取下一页链接地址
next_page = response.xpath("//li[@class='bk'][last()]/a/@href").get()
if next_page:
# 交给schedule调度器进行下一次请求 开启不屏蔽过滤
yield scrapy.Request(next_page, callback=self.parse, dont_filter=True)
# 该函数用于提取详细页面的信息
def parse_detail(self, response):
item = ScrapyjobItem()
# 详细页面的职业信息
item['positionName'] = response.xpath("//div[@class='cn']/h1/@title").get()
item['companyName'] = response.xpath("//div[@class='com_msg']//p/text()").get()
item['companyType'] = response.xpath("//div[@class='com_tag']//p/@title").extract()
item['salary'] = response.xpath("//div[@class='cn']/strong/text()").get()
item['jobMsg'] = response.xpath("//p[contains(@class, 'msg')]/@title").extract()
item['positionMsg'] = response.xpath("//div[contains(@class, 'job_msg')]//text()").extract()
item['address'] = response.xpath("//p[@class='fp'][last()]/text()").get()
item['link'] = response.url
# print(item['positionMsg'])
yield item
(3)、pipelines.pyを記述します
# 在 pipeline.py 文件中写一个中间件把数据保存在MySQL中
class MysqlPipeline(object):
# from_crawler 中的参数crawler表示这个项目本身
# 通过crawler.settings.get可以读取settings.py文件中的配置信息
@classmethod
def from_crawler(cls, crawler):
cls.host = crawler.settings.get('MYSQL_HOST')
cls.user = crawler.settings.get('MYSQL_USER')
cls.password = crawler.settings.get('MYSQL_PASSWORD')
cls.database = crawler.settings.get('MYSQL_DATABASE')
cls.table_name = crawler.settings.get('MYSQL_TABLE_NAME')
return cls()
# open_spider表示在爬虫开启的时候调用此方法(如开启数据库)
def open_spider(self, spider):
# 连接数据库
self.db = pymysql.connect(self.host, self.user, self.password, self.database, charset='utf8')
self.cursor = self.db.cursor()
# process_item表示在爬虫的过程中,传入item,并对item作出处理
def process_item(self, item, spider):
# 向表中插入爬取的数据 先转化成字典
data = dict(item)
table_name = self.table_name
keys = ','.join(data.keys())
values = ','.join(['%s'] * len(data))
sql = 'insert into %s (%s) values (%s)' % (table_name, keys, values)
self.cursor.execute(sql, tuple(data.values()))
self.db.commit()
return item
# close_spider表示在爬虫结束的时候调用此方法(如关闭数据库)
def close_spider(self, spider):
self.db.close()
# 写一个管道中间件StripPipeline清洗空格和空行
class StripPipeline(object):
def process_item(self, item, job_detail):
item['positionName'] = ''.join(item['positionName']).strip()
item['companyName'] = ''.join(item['companyName']).strip()
item['companyType'] = '|'.join([i.strip() for i in item['companyType']]).strip().split("\n")
item['salary'] = ''.join(item['salary']).strip()
item['jobMsg'] = ''.join([i.strip() for i in item['jobMsg']]).strip()
item['positionMsg'] = ''.join([i.strip() for i in item['positionMsg']]).strip()
item['address'] = ''.join(item['address']).strip()
return item
(4)、settings.pyを設定します
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# 把我们刚写的两个管道文件配置进去,数值越小优先级越高
# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
# 'scrapy_qcwy.pipelines.ScrapyQcwyPipeline': 300,
'scrapy_qcwy.pipelines.MysqlPipeline': 200,
'scrapy_qcwy.pipelines.StripPipeline': 199,
}
# Mysql 配置
MYSQL_HOST = 'localhost'
MYSQL_USER = 'root'
MYSQL_PASSWORD = 'root'
MYSQL_DATABASE = 'qcwy'
MYSQL_TABLE_NAME = 'job_detail'
データベースの結果を表示する
最終的なソースコードの詳細については、https://github.com/zmk-c/scrapy/tree/master/scrapy_qcwyをご覧ください。