scrapy ------ 爬取豆瓣电影TOP250 - 代码天地

scrapy ------ 爬取豆瓣电影TOP250

其他 2018-11-14 20:22:56 阅读次数: 0

转载自 —> 原文

#items.py
# -*- coding: utf-8 -*-
import scrapy

class DoubanMovieItem(scrapy.Item):
    ranking = scrapy.Field()        #排名
    movie_name = scrapy.Field()     #电影名称
    score = scrapy.Field()          #评分
    score_num = scrapy.Field()      #评论人数

#douban_spider.py
#-*- coding:utf-8 -*-

from scrapy.spider import Spider
from scrapyspider.items import DoubanMovieItem
import scrapy


class DoubanMovieTop250spider(Spider):
    name = 'douban_movie_top250'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
    }

    def start_requests(self):
        url = 'https://movie.douban.com/top250'
        yield scrapy.Request(url, headers=self.headers)

    def parse(self,response):
        item = DoubanMovieItem()
        movies = response.xpath('//ol[@class="grid_view"]/li')
        for movie in movies:
            item['ranking'] = movie.xpath('.//div[@class="pic"]/em/text()').extract()[0]
            item['movie_name'] = movie.xpath('.//div[@class="hd"]/a/span[1]/text()').extract()[0]
            item['score'] = movie.xpath('.//div[@class="star"]/span[@class="rating_num"]/text()').extract()[0]
            item['score_num'] = movie.xpath('.//div[@class="star"]/span[4]/text()').extract()[0]
            yield item

        next_url = response.xpath('//span[@class="next"]/a/@href').extract()  #获取下一页链接
        if next_url:
            next_url = 'https://movie.douban.com/top250' + next_url[0]
            yield scrapy.Request(next_url, headers=self.headers)

猜你喜欢

转载自blog.csdn.net/hunyxv/article/details/70216417

笔记：Scrapy 爬取豆瓣电影Top250

使用scrapy爬取豆瓣电影Top250

用scrapy框架爬取豆瓣Top250电影

scrapy ------ 爬取豆瓣电影TOP250

Python爬虫 - scrapy - 爬取豆瓣电影TOP250

scrapy框架爬取豆瓣电影top250

Scrapy爬取豆瓣电影Top250信息

python scrapy框架爬取豆瓣top250电影篇一scrapy原理介绍

scrapy爬虫之item/itemloader机制爬取豆瓣电影top250

scrapy入门实战练习（一）----爬取豆瓣电影top250

Scrapy爬虫（4）爬取豆瓣电影Top250图片

用Scrapy对豆瓣top250进行电影详细信息爬取

Python3 Scrapy框架学习二：爬取豆瓣电影Top250

使用scrapy框架爬取豆瓣电影top250信息

03_使用scrapy框架爬取豆瓣电影TOP250

网络爬虫实战（五）：Scrapy爬取豆瓣电影Top250

python scrapy爬虫练习(1) 爬取豆瓣电影top250信息

利用scrapy框架爬取豆瓣top250

爬虫教程——用Scrapy爬取豆瓣TOP250

python+scrapy+mongoDB爬取豆瓣top250

python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目，pycharm编辑

Scrapy 水平爬取豆瓣电影 Top 250

python scrapy框架爬取豆瓣top250电影篇一代理编写

python scrapy框架爬取豆瓣top250电影篇一存储数据到mongogdb | mysql中

python scrapy框架爬取豆瓣top250电影篇一明确目标&&爬虫编写

Scrapy中用xpath/css爬取豆瓣电影Top250：解决403HTTP status code is not handled or not allowed

scrapy实例三【豆瓣电影Top250】

使用scrapy编写爬虫：爬取豆瓣Top250读书的评论

Python入门学习记录04--Scrapy爬取豆瓣Top250图书(可翻页)

scrapy爬取豆瓣top250并插入到MySQL数据库（入门级）

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)