Scrapy爬取豆瓣电影Top250信息 - 代码天地

Scrapy爬取豆瓣电影Top250信息

其他 2019-10-22 15:50:50 阅读次数: 0

爬取多页电影信息及简介

　　爬取标题，评分，排名，摘要，剧情简介

　　使用 Feed exports 保存爬取的数据

代码：

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 import re
 4 from ..items import ScrapyDoubanItem
 5 
 6 
 7 class DoubanSpider(scrapy.Spider):
 8     name = 'douban'
 9     # allowed_domains = ['douban.com']
10     start_urls = ['https://movie.douban.com/top250']
11 
12     def parse(self, response):
13         # print(response.url)
14         abstract = response.xpath('//*[@class="inq"]/text()').extract()
15         detail_pages = response.xpath('//div[@class="hd"]/a/@href').extract()
16         # print(detail_pages)
17         for ind,detail_page in enumerate(detail_pages):
18             # print(detail_page)
19             abstract_detail = abstract[ind]
20             yield scrapy.Request(detail_page,callback=self.parse_detail,meta={'abstract_detail':abstract_detail})
21         next_page = response.xpath('//span[@class="next"]/a/@href').extract_first()
22         base_url = 'https://movie.douban.com/top250'
23         # print(title)
24         if next_page:
25             yield scrapy.Request(url=base_url+next_page,callback=self.parse)
26 
27     def parse_detail(self, response):
28         # print(response.url)
29         title = response.xpath('//*[@property="v:itemreviewed"]/text()').extract_first()
30         score = response.xpath('//*[@class="ll rating_num"]/text()').extract_first()
31         rank = response.xpath('//*[@class="top250-no"]/text()').extract()
32         describe = response.xpath('//*[@property="v:summary"]/text()').extract_first()
33         abstract_detail = response.meta['abstract_detail']
34         item = ScrapyDoubanItem()
35         item['title'] = title
36         item['score'] = score
37         item['rank'] = rank
38         item['abstract_detail'] = abstract_detail
39         item['describe'] = describe
40         yield item
41         # print(title, abstract_detail, score, rank)
42         # print(score, abstract_detail)

猜你喜欢

转载自www.cnblogs.com/JinZL/p/11720171.html

Scrapy爬取豆瓣电影Top250信息

笔记：Scrapy 爬取豆瓣电影Top250

使用scrapy爬取豆瓣电影Top250

用scrapy框架爬取豆瓣Top250电影

scrapy ------ 爬取豆瓣电影TOP250

Python爬虫 - scrapy - 爬取豆瓣电影TOP250

scrapy框架爬取豆瓣电影top250

python爬取豆瓣电影Top250的信息

爬取豆瓣TOP250个电影信息

爬取豆瓣top250电影的信息

python项目-爬取豆瓣top250电影信息

爬虫实战：爬取豆瓣TOP250电影信息

python爬虫——爬取豆瓣top250电影信息

【爬虫】爬取豆瓣Top250电影信息

用Scrapy对豆瓣top250进行电影详细信息爬取

使用scrapy框架爬取豆瓣电影top250信息

python scrapy爬虫练习(1) 爬取豆瓣电影top250信息

爬取豆瓣电影TOP250

爬取豆瓣电影Top250和和豆瓣图书

python scrapy框架爬取豆瓣top250电影篇一scrapy原理介绍

scrapy爬虫之item/itemloader机制爬取豆瓣电影top250

scrapy入门实战练习（一）----爬取豆瓣电影top250

Scrapy爬虫（4）爬取豆瓣电影Top250图片

Python3 Scrapy框架学习二：爬取豆瓣电影Top250

03_使用scrapy框架爬取豆瓣电影TOP250

网络爬虫实战（五）：Scrapy爬取豆瓣电影Top250

爬取豆瓣电影top250（python3）

使用requests爬取豆瓣电影top250

python爬取豆瓣电影Top250

利用selenium爬取豆瓣电影Top250

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)