使用scrapy爬取豆瓣电影Top250 - 代码天地

使用scrapy爬取豆瓣电影Top250

其他 2018-10-18 22:22:55 阅读次数: 0

根据官方文档做的简单练习，唯一遇到的问题就是爬取返回403.解决方法是在settings.py文件中增加以下参数：

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'

下面是spider的内容：

# -*- coding: utf-8 -*-
import scrapy


class MoviesSpider(scrapy.Spider):
    name = 'movies'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        grid_view=response.css('ol.grid_view')
        for li_item in grid_view.css('li'):
            yield {
                    'rank':li_item.css('div.item div.pic em::text').extract_first(),
                    'url':li_item.css('div.item div.pic a::attr(href)').extract_first(),
                    'title_zh':li_item.css('div.hd a span:first-child::text').extract_first(),
                    'title_en':li_item.css('div.hd a span:nth-child(2)::text').extract_first(),
                    'title_tw':li_item.css('div.hd a span:last-child::text').extract_first(),
                    'editor':li_item.css('div.bd p:first-child::text').extract_first(),
                    'star':li_item.css('div.bd div.star span.rating_num::text').extract_first(),
                    'votes':li_item.css('div.bd div.star span:last-child::text').re(r'(\d+)')[0],
                    'desc':li_item.css('span.inq::text').extract_first()
                    }
            next_page=response.css('span.next a::attr(href)').extract_first()
            if next_page is not None:
                yield response.follow(next_page,self.parse)

猜你喜欢

转载自blog.csdn.net/sofeien/article/details/80490033

使用scrapy爬取豆瓣电影Top250

笔记：Scrapy 爬取豆瓣电影Top250

用scrapy框架爬取豆瓣Top250电影

scrapy ------ 爬取豆瓣电影TOP250

Python爬虫 - scrapy - 爬取豆瓣电影TOP250

scrapy框架爬取豆瓣电影top250

Scrapy爬取豆瓣电影Top250信息

爬取豆瓣电影TOP250

使用requests爬取豆瓣电影top250

使用scrapy框架爬取豆瓣电影top250信息

03_使用scrapy框架爬取豆瓣电影TOP250

爬取豆瓣电影Top250和和豆瓣图书

python scrapy框架爬取豆瓣top250电影篇一scrapy原理介绍

scrapy爬虫之item/itemloader机制爬取豆瓣电影top250

scrapy入门实战练习（一）----爬取豆瓣电影top250

Scrapy爬虫（4）爬取豆瓣电影Top250图片

用Scrapy对豆瓣top250进行电影详细信息爬取

Python3 Scrapy框架学习二：爬取豆瓣电影Top250

网络爬虫实战（五）：Scrapy爬取豆瓣电影Top250

python scrapy爬虫练习(1) 爬取豆瓣电影top250信息

爬取豆瓣电影top250（python3）

python爬取豆瓣电影Top250

利用selenium爬取豆瓣电影Top250

（十七）Python爬虫：爬取豆瓣电影TOP250

python爬虫--爬取豆瓣top250电影名

python爬取豆瓣电影Top250的信息

用Python爬取豆瓣Top250的电影标题

爬取豆瓣TOP250个电影信息

xpath_爬取豆瓣电影TOP250

BS4_爬取豆瓣电影Top250

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)