Python3 Scrapy框架学习二：爬取豆瓣电影Top250 - 代码天地

Python3 Scrapy框架学习二：爬取豆瓣电影Top250

其他 2018-10-08 12:17:17 阅读次数: 0

打开项目里的items.py文件，定义如下变量，

import scrapy
from scrapy import Item,Field


class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    movie = Field()
    year = Field()
    star = Field()
    vote = Field()
    quote = Field()

然后打开项目里的spiders文件夹内的doubanTop250.py文件。

# -*- coding: utf-8 -*-
import scrapy
from douban.items import DoubanItem


class Doubantop250Spider(scrapy.Spider):
    name = 'doubanTop250'
    #allowed_domains = ['movie.douban.com/top250/']    这里需要修改下，涉及爬取下一页的关键
    allowed_domains = ['movie.douban.com']    
    start_urls = ['http://movie.douban.com/top250/']

    def parse(self, response):
        infos = response.css('.info')
        for info in infos:
            item = DoubanItem()
            item['movie'] = info.css('.title::text').extract_first().strip()
            item['year'] = info.css('div p[class = ""]::text').re_first('\d+') #正则的用法
            item['vote'] = info.css('.rating_num::text').extract_first().strip()
            item['star'] = info.css('.star span::text').extract()[-1].strip() #获取最后一项
            item['quote'] = info.css('.inq::text').extract_first().strip()
            yield item

        next = response.css('.next a::attr("href")').extract_first()  #查找下一页的链接
        url = response.urljoin(next)
        yield scrapy.Request(url = url,callback = self.parse)    #解析下一页

打开settings.py文件，加入如下两行代码：

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
FEED_EXPORT_ENCODING = 'gbk'

然后在命令提示符输入:

scrapy crawl doubanTop250 -o douban.csv

爬取结束后会生成一个csv文件，效果图如下：

猜你喜欢

转载自blog.csdn.net/qq523176585/article/details/82935403

Python3 Scrapy框架学习二：爬取豆瓣电影Top250

Python爬虫 - scrapy - 爬取豆瓣电影TOP250

python scrapy框架爬取豆瓣top250电影篇一scrapy原理介绍

爬取豆瓣电影top250（python3）

Python3 Scrapy框架学习五：使用crawl模板爬取豆瓣Top250，并存入MySql、MongoDB

python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目，pycharm编辑

python scrapy框架爬取豆瓣top250电影篇一明确目标&&爬虫编写

python scrapy框架爬取豆瓣top250电影篇一代理编写

python scrapy框架爬取豆瓣top250电影篇一存储数据到mongogdb | mysql中

python scrapy爬虫练习(1) 爬取豆瓣电影top250信息

python爬取豆瓣电影Top250

（十七）Python爬虫：爬取豆瓣电影TOP250

python爬虫--爬取豆瓣top250电影名

python爬取豆瓣电影Top250的信息

用Python爬取豆瓣Top250的电影标题

python 爬虫&爬取豆瓣电影top250

python 豆瓣top250电影的爬取

python爬虫入门 ✦ 爬取豆瓣电影Top250

python爬取豆瓣电影Top250（小白系列）

python爬虫之爬取豆瓣电影top250

python项目-爬取豆瓣top250电影信息

python爬虫爬取豆瓣电影TOP250

python爬虫——爬取豆瓣top250电影信息

Python 爬取豆瓣电影Top250

Python 豆瓣电影Top250爬取

使用python3爬取豆瓣电影top250

python3 爬取豆瓣电影TOP250，漂亮表格彩色显示

python+scrapy+mongoDB爬取豆瓣top250

Python爬虫学习笔记(3) _豆瓣电影TOP250(3)采用sql存储的方法爬取豆瓣电影

Python爬虫小白教程（二）—— 爬取豆瓣评分TOP250电影

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)