创建Scrapy项目(一)

作者默认各位学者都是已经安装好Scrapy框架的,接下来我们进行实战操作。

环境:windows平台(win10专业版)

编译器:Pycharm专业版(官网下载的然后网站上找的破解方法,破解方法会时时更新,所以读者要破解码之类的直接百度就好)

第一步:创建Scrapy文件

利用快捷键(win+R)快速打开运行窗口,然后在里面输入cmd命令进入cmd控制台界面。

由于本人有分类管理的习惯,所以一般我创建文件都不是直接创建在C盘,我喜欢建在D盘,如果你跟我一样有分类的习惯,在控制台输入D:

eg:C:\User\xxxx>D:(xxxx是用户名,自己设置的名字,本人设的是自己的名字,所以这里用xxxx代替)

换入D盘后直接输入scrapy startproject “项目名称” eg: scrapy startproject Movie

会出现以下内容

You can start your first spider with:
    cd Movie
    scrapy genspider example example.com

出现这些东西呢,就表明scrapy项目创建成功了,这时你可以去创建目录下面找到自己刚刚创建的文件夹(不要关闭刚刚的cmd窗口哦)


进入文件夹,你也可以看到scrapy框架帮我们创建好的文件,只不过还缺少一个spider模块,但现在无关紧要,我们先测试一下scrapy,毕竟安装跟创建也费了好大的功夫。

测试网站:电影天堂(一个福利网站吧,累了倦了看一看电影)

回到刚刚的cmd命令窗口,然后输入scrapy shell “http://www.dytt8.net/html/gndy/dyzz/index.html”回车,你就会看到这样的界面



然后在shell里面输入view(response),首先你会看到一个True的返回值,然后调用你的浏览器打开刚刚的那个页面,只不过那个页面已经被下载到了本地(可以看看打开网页的链接哦~)


是不是觉得很神奇呢,嗯,接下来就是补全Scrapy框架(此时还是缺少一个Spider模块)。这种方式也可以用来测试网站是否有反爬虫,如果返回是True,那么绝大一部分网站都可以用scrapy爬取数据。

第二步:创建Spider模块

打开IDE-Pycharm,然后打开刚刚的创建的scrapy文件,接着在spiders文件下新建一个py文件,名字就叫Dytt8Spider,结果如下图所示:

然后在里面输入以下代码:

import scrapy
class Dytt8Spider(scrapy.Spider):
    #定义爬虫的名字
    name = "Dytt8"
    #允许爬虫访问的域名
    allowed_domains = ["dytt8.net"]
    start_urls = [
        "http://www.dytt8.net/html/gndy/dyzz/index.html"
    ]
    def parse(self,response):
        #实现网页的解析
        pass
 
 

然后在pycharm里面的Terminal中输入scrapy crawl Dytt8回车,此时你用scrapy写的爬虫就运行起来了,虽然没有爬取数据,但是可以运行也是很值得庆幸的。

 
 

到此,一个完整又简单的Scrapy框架已经搭建完成,下一篇我们来补全里面的内容(获取网页里面的数据并存入数据库(MongoDB、Mysql)两种数据库都实现一次)

不足之处或者有错误之处,还请各位朋友指点一下,Thanks♪(・ω・)ノ




猜你喜欢

转载自blog.csdn.net/xiaozhenrenjia/article/details/80676674