Python网络爬虫入门第一篇
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。本篇将使用Python语言作为开发工具从Python基础开始由浅入深的讲解爬虫的开发流程及设计思路。
- Python基础
★本章导读★
有句老话说得好,“工欲善其事,必先利其器”,咱们要想学好网络爬虫的开发,得先学会要用哪些工具吧。同时也为了照顾没有语言基础的同学学习爬虫的开发,使得后面学起来轻松些。本章将对Python基础做一个快速大致的讲解学习,如:Python环境搭建和基础语法等。
★知识要点★
通过本章内容的学习,学完后读者能掌握以下知识技能。
- Python环境的搭建
- Python 开发IDE Pycharm的基本使用
- 数据类型和变量
- 字符串编码
- 列表和元组
- 流程控制语句if和循环
- 字典和集合的使用
- 函数
1.1 Python简介
Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。
Python是纯粹的自由软件, 源代码和解释器CPython遵循 GPL(GNU General Public License)协议。Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。
Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是,使用Python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C/C++重写,而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题,某些可能不提供跨平台的实现。Python目前分为两个大的版本,一个是Python2.x版本,另一个是Python3.x版本。这两个版本差距比较大,考虑到未来的潮流了,当然我们也要紧跟时代的步伐,尽量使用比较新的稳定版本,所以本书中所讲实例均使用的为3.x的版本。
1.2 Windows下Python环境的安装与配置
根据Windows版本(64位/或者32位)从Python官网下载对应的版本安装包,打开官网选择第二选项Downloads,以3.7版本为例,如图1-1所示。
官方的下载地址为:https://www.python.org
图1-1
下载完后,双击【python-3.7.0.exe】运行安装程序安装Python,如图1-2所示。
图1-2
步骤一:勾选【Add Python 3.7 to PAHT】选项后单击【Customize installation】选项。这一步的操作作用是把Python加入到系统的path环境变量中。如果不勾选的话,就要手动去配置环境变量。
步骤二:在弹出的选择卡中勾选所有的选项,并单击【Next】按钮,如图1-3所示。
选项“Documentation”表示安装Python的帮助文档;选项“pip”表示安装Python的第三方包管理工具;
选项“tc/tk and IDLE”表示安装Python的集成开发环境;选项Python test suite表示安装Python的标准测试套件,后两个选择表示允许版本更新。然后单击【Next】
图1-3
步骤三:保持默认的勾选状态,然后单击【Browse】选择安装路径,如图1-4所示。
图1-4
步骤四:最后单击【Install】进行安装。
安装完成后,在控制台打开cmd命令行窗口,输入“python”,检查是否安装成功。如果安装成功了将会出现如图1-5所示的内容。由于我这儿以前已经安装过了3.6的版本,所以图上看到是3.6.2版本。
图1-5
1.3 Liunx下的Python环境安装
Liunx下的Python环境安装,一般常用的有两种方式:命令安装和源码安装。
Liunx下其实默认装有Python2.7版本,但是由于我们需要使用3.x版本的Python,所以我们需要自己去安装。使用源码安装Python需要自己编译,而且时间比较长。在这里推荐使用命令去安装,这样既简单又快速,可以省去很多步骤。由于Liunx系统有众多版本,这里选择性的以Ubuntu/Debian/Deepin为例。
1.命令安装,打开命令行窗口,如图1-6所示。
图1-6
步骤一:sudo su 切换到root用户
步骤二:输入apt-get install -y python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev libcurl4-openssl-dev 此命令成功执行完毕后将会出现如图1-7所示:
图1-7
步骤三:继续输入apt-get install -y python3回车,等待安装。
执行完上面的命令后,Python3就已经安装完成了。最后还要测试一下是否安装成功,直接输入python3,如图1-8所示:
图1-8
如果安装成功将会看到相关的版本信息。
接下来我们还要安装pip3,这里还是使用命令去安装,命令如下:
sudo apt-get install -y python3-pip
执行完命令后,就已经安装成功了
2.源码安装
源码安装需要去官网手动下载相应的安装包,官网地址:https://www.python.org,选择相应的版本下载,这里还是以3.7版本为例。
首先,下载好安装包以后,解压并进入到解压路径,命令如下:
tar -zxvf Python-3.7.0.tgz
cd Python-3.7.0
接下来,创建安装路径,命令:sudo mkdir /usr/local/python3
然后编译安装,整个过程可能会有点长,相关命令如下:
sudo ./configure --prefix=/usr/loacl/python3
sudo make
sudo make install
安装完毕后,创建软链接,相关命令如下:
sudo ln -s /usr/local/python3/bin/python3 /usr/bin/python3
随后下载pip安装包并安装pip下载地址:https://github.com/pypa/pip/archive/9.0.1.tar.gz,命令如下:
tar -zxvf pip-9.0.1.tar.gz
cd pip-9.0.1
python3 setup.py install
安装完pip3后,再创建pip3的软链接。相关命令如下:
sudo ln -s /usr/local/python3/bin/pip /usr/bin/pip3
这样就成功的通过手动编译安装好了Python3和pip3
后续内容待有时间在补充!!!!!!!!!!!!!!!!!