爬虫知识1:了解爬虫知识体系、安装Scrapy等模块

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/80154966

1、爬虫的知识介绍及相关概念


    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。通过爬虫爬取数据后,你就可以做一些数据分析、展示等工作。

1)知识图谱

    要掌握爬虫,除了一些python中一些基础的语法、函数、模块、面向对象等知识,还需要了解或掌握以下知识点:

640?wx_fmt=png&wxfrom=5&wx_lazy=1

    Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求抓取页面,但需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务,已经过时了。

    Requests是使用Apache2 Licensed许可证的,基于Python开发的HTTP库,其在Python内置模块的基础上进行了高度的封装,从而使得Pythoner进行网络请求时,变得美好了许多,使用Requests模块可以轻而易举的完成浏览器可有的任何操作。

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。主要用来帮助你下载网页、解析网页、自定义一些模块。我们只需专注于提取数据就好了;

使用requests模块、或scrapy框架会更方便一点。

    我们主要介绍Requests模块和Scrapy框架的应用。


2)http简介:

    HTTP协议(HyperText Transfer Protocol,超文本传输协议)客户端和服务器端数据传输的协议。设计HTTP最初目的是为了提供一种发布和接收HTML页面的方法。

http请求的一些方法:最常用的就是get和post方法

  • GET:请求资源

  • POST:请求表单或者文件,可能修改服务器资源,比如登录就需要用POST请求

  • PUT:更新资源

  • DELETE:删除指定资源

  • OPTIONS:获取服务器支持的HTTP请求方法,检查服务器性能


http请求时包含请求行、请求头、请求数据。其中header请求头有一些字段:

  • Host:请求的服务器的域名

  • User-Agent:用户请求信息:浏览器、操作系统等信息

  • Accept:请求端接收数据类型

  • Accept-Encoding:指定接收数据的压缩编码类型

  • Cookie:cookie信息

  • Date:日期

  • Keep-Alive:长连接


比如请求百度页面的请求头:右键--检查元素---network

640?wx_fmt=png


服务器应答的状态码的信息:

  • 1xx:请求已接收,继续处理

  • 2xx:请求成功

  • 3xx:重定向,继续处理

  • 4xx:客户端请求错误(403 Forbidden、404NOT FOUND、400BAD REQUEST...)

  • 5xx:服务端错误


比如浏览百度时的code:

640?wx_fmt=png


1、安装python

    可以去python官网下载,可以直接下载一个最新版。https://www.python.org/downloads/

    目前的3.6.4版本是会直接添加环境变量的,如果没有添加,比如发现说“不是内部或外部命令”则可能是因为没有添加环境变量。

    添加的方法是:进入计算机---属性-高级系统设置---高级--环境变量---下面的第二个框找到path,把python和python中的Scripts的目录贴上去。

    比如两个文件夹如下:中间用";"隔开

C:\Users\...\AppData\Local\Programs\Python\Python36;C:\Users\...\AppData\Local\Programs\Python\Python36\Scripts;


640?wx_fmt=png


2、关于模块requests的安装

requests模块与安装其他的模块类似,直接使用pip3 install +模块名称即可。

步骤1:进入目录

开始—cmd,打开命令编辑框,输入如下命令(cd+空格+pip3所在的目录),进入pip3的目录: 

输入的命令:cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts

步骤2:输入 pip3 install requests

640?wx_fmt=png

即可进行安装。



3、关于Scrapy框架的安装

系统为widows,

步骤1:进入目录

开始—cmd,打开命令编辑框,输入如下命令(cd+空格+pip3所在的目录),进入pip3的目录: 

输入的命令:cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts

640?wx_fmt=png

步骤2:安装wheel

输入:pip3 install wheel

640?wx_fmt=png

步骤3:下载twisted

进入以下网址https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到合适的版本,比如下图所示,保存到目录

640?wx_fmt=png

步骤4:cd进入刚刚下载的twisted的存放目录

比如输入:cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts


步骤5:安装twisted

输入:pip3 install Twisted-17.9.0-cp36-cp36m-win_amd64.whl

640?wx_fmt=png

步骤6:cd进入pip3的目录,安装scrapy

输入:cd C:\Users\huhuanhuan\AppData\Local\Programs\Python\Python36\Scripts

安装:pip3 install scrapy

640?wx_fmt=png

步骤7:下载pywin32

下载网址:进入网站https://sourceforge.net/projects/pywin32/files/,选取合适的版本,exe下载,双击安装即可。

合适的版本,如果不清楚,可以根据你的python来看是32位还是64位

640?wx_fmt=png

步骤8:其他问题

如果安装之后发现cmd中无法运行python,不清楚是什么原因,即使添加环境变量依然不能解决,这时可以重新从python官网再下载一次,选择修复性安装即可。

安装python后,再打开cmd,运行下pip3 install scrapy。

验证是否安装:可以看到scripts文件夹中发现scrapy.exe,或者python下运行import scrapy。

640?wx_fmt=png


参考网址:

https://www.cnblogs.com/wuxl360/p/5567631.html

看端口号的命令,是进入cmd,输入“netstat

看ip地址是,是进入cmd,输入“ipconfig/all”,选择ipv4那个

猜你喜欢

转载自blog.csdn.net/PbGc396Dwxjb77F2je/article/details/80154966