Scrapy 学习笔记 - 第一个项目

参考http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id2

因为我是在虚拟环境中安装的Scrapy,所以要先切换到虚拟环境

cd Scrapyenv
source bin/activate

创建一个项目

scrapy startproject myfirst

会在当前目录创建一些文件

项目名/
    scrapy.cfg           #配置文件
    项目名/
        __init__.py
        items.py         #项目中的item文件  Item 是保存爬取到的数据的容器
        pipelines.py
        settings.py
        spiders/         #放置爬虫代码的目录
            __init__.py

在spiders目录下,创建一个爬虫任务文件 myfirst_spider.py,并添加内容

import scrapy
class myFirstSpider(scrapy.Spider):
    name = "myFirst_Spider_Task"   #任务名
    allowed_domains = ["baidu.com"]
    start_urls = ["http://www.baidu.com",]
    
    def parse(self, response):
        print response.body

启动任务

cd myfirst  #这里是项目目录 
scrapy crawl myFirst_Spider_Task  #这里是任务名

当然,结果不是预期的,因为百度设置了robots协议

[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET http://www.baidu.com>
忽略robots协议,需要修改项目文件setting.py 将 ROBOTSTXT_OBEY值设置为False。

猜你喜欢

转载自blog.csdn.net/holdsky/article/details/79356098