Python网络爬虫第1章Python基础

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_32502511/article/details/83538120

Python网络爬虫入门第一篇

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。本篇将使用Python语言作为开发工具从Python基础开始由浅入深的讲解爬虫的开发流程及设计思路。

  1. Python基础

★本章导读★

有句老话说得好,“工欲善其事,必先利其器”,咱们要想学好网络爬虫的开发,得先学会要用哪些工具吧。同时也为了照顾没有语言基础的同学学习爬虫的开发,使得后面学起来轻松些。本章将对Python基础做一个快速大致的讲解学习,如:Python环境搭建和基础语法等。

★知识要点★

通过本章内容的学习,学完后读者能掌握以下知识技能。

  1. Python环境的搭建
  2. Python 开发IDE Pycharm的基本使用
  3. 数据类型和变量
  4. 字符串编码
  5. 列表和元组
  6. 流程控制语句if和循环
  7. 字典和集合的使用
  8. 函数 

1.1 Python简介

Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。

Python是纯粹的自由软件, 源代码和解释器CPython遵循 GPL(GNU General Public License)协议。Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。

Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是,使用Python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C/C++重写,而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题,某些可能不提供跨平台的实现。Python目前分为两个大的版本,一个是Python2.x版本,另一个是Python3.x版本。这两个版本差距比较大,考虑到未来的潮流了,当然我们也要紧跟时代的步伐,尽量使用比较新的稳定版本,所以本书中所讲实例均使用的为3.x的版本。

1.2 Windows下Python环境的安装与配置

根据Windows版本(64位/或者32位)从Python官网下载对应的版本安装包,打开官网选择第二选项Downloads,以3.7版本为例,如图1-1所示。
官方的下载地址为:https://www.python.org

                                                       图1-1

下载完后,双击【python-3.7.0.exe】运行安装程序安装Python,如图1-2所示。

                                                     图1-2

步骤一:勾选【Add Python 3.7 to PAHT】选项后单击【Customize installation】选项。这一步的操作作用是把Python加入到系统的path环境变量中。如果不勾选的话,就要手动去配置环境变量。 

步骤二:在弹出的选择卡中勾选所有的选项,并单击【Next】按钮,如图1-3所示。

选项“Documentation”表示安装Python的帮助文档;选项“pip”表示安装Python的第三方包管理工具;

选项“tc/tk and IDLE”表示安装Python的集成开发环境;选项Python test suite表示安装Python的标准测试套件,后两个选择表示允许版本更新。然后单击【Next】

                                                         图1-3

步骤三:保持默认的勾选状态,然后单击【Browse】选择安装路径,如图1-4所示。

                                                       图1-4

步骤四:最后单击【Install】进行安装。

安装完成后,在控制台打开cmd命令行窗口,输入“python”,检查是否安装成功。如果安装成功了将会出现如图1-5所示的内容。由于我这儿以前已经安装过了3.6的版本,所以图上看到是3.6.2版本。

                                                           图1-5

1.3 Liunx下的Python环境安装

Liunx下的Python环境安装,一般常用的有两种方式:命令安装和源码安装。

           Liunx下其实默认装有Python2.7版本,但是由于我们需要使用3.x版本的Python,所以我们需要自己去安装。使用源码安装Python需要自己编译,而且时间比较长。在这里推荐使用命令去安装,这样既简单又快速,可以省去很多步骤。由于Liunx系统有众多版本,这里选择性的以Ubuntu/Debian/Deepin为例。

          1.命令安装,打开命令行窗口,如图1-6所示。

                                                             图1-6

步骤一:sudo su 切换到root用户
步骤二:输入apt-get install -y python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev libcurl4-openssl-dev 此命令成功执行完毕后将会出现如图1-7所示:

                                                            图1-7

步骤三:继续输入apt-get install -y python3回车,等待安装。

执行完上面的命令后,Python3就已经安装完成了。最后还要测试一下是否安装成功,直接输入python3,如图1-8所示:

                                                          图1-8

如果安装成功将会看到相关的版本信息。
接下来我们还要安装pip3,这里还是使用命令去安装,命令如下:
sudo apt-get install -y python3-pip
执行完命令后,就已经安装成功了

2.源码安装
 源码安装需要去官网手动下载相应的安装包,官网地址:https://www.python.org,选择相应的版本下载,这里还是以3.7版本为例。
首先,下载好安装包以后,解压并进入到解压路径,命令如下:
tar -zxvf Python-3.7.0.tgz
cd Python-3.7.0
接下来,创建安装路径,命令:sudo mkdir /usr/local/python3
然后编译安装,整个过程可能会有点长,相关命令如下:
sudo ./configure --prefix=/usr/loacl/python3
sudo make
sudo make install
安装完毕后,创建软链接,相关命令如下:
sudo ln -s /usr/local/python3/bin/python3 /usr/bin/python3
随后下载pip安装包并安装pip下载地址:https://github.com/pypa/pip/archive/9.0.1.tar.gz,命令如下:
tar -zxvf  pip-9.0.1.tar.gz
cd pip-9.0.1
python3 setup.py install
安装完pip3后,再创建pip3的软链接。相关命令如下:
sudo ln -s /usr/local/python3/bin/pip /usr/bin/pip3
这样就成功的通过手动编译安装好了Python3和pip3

后续内容待有时间在补充!!!!!!!!!!!!!!!!!

猜你喜欢

转载自blog.csdn.net/qq_32502511/article/details/83538120