Python爬虫实战入门——工具准备篇

工具准备 

1.1、基础知识 
使用 Python 编写爬虫,当然至少得了解 Python 基本的语法,了解以下几点即可: 

  • 基本数据结构 
  • 数据类型
  • 控制流
  • 函数的使用
  • 模块的使用

不需要过多过深的 Python 知识,仅此而已。

1.2、开发环境
• 操作系统:Windows 10

• Python 版本:Python 3.5

• 代码编辑运行环境:个人推荐 PyCharm 社区版,当然,Python 自带的 IDLE 也行, Notepad++亦可,只要自己使用得习惯。 


1.3、第三方依赖库 
• Requests:一个方便、简洁、高效且人性化的 HTTP 请求库

• BeautifulSoup:HTML 解析库

• Pymongo:MongoDB 的 Python 封装模块

• Selenium:一个 Web 自动化测试框架,用于模拟登录和获取 JS 动态数据

• Pytesseract:一个 OCR 识别模块,用于验证码识别

• Pillow:Python 图像处理模块 

1.4、第三方库安装: 
上面列出的第三方模块大多可以通过 pip install ××的方式直接安装,部分模块安装方式 不一样,下面一一演示:

1.4.1、requests 

pip install requests 

 因为我电脑里边同时安装了 Python2和Python3两个版本,所以报如下错误:

解决办法:

python3:

python3 -m pip install --upgrade pip

python2:

python2 -m pip install --upgrade pip

注意:python2, python3共存时,将python安装目录下的python.exe改成对应的python2.exe,python3.exe

使用以上命令有可能会报错,是因为网络问题,需要翻墙即可解决(下图所示):

再使用 pip install requests 就可成功安装

 

提示requests模块库我们已经安装过了,说明我们已经安装成功了。

1.4.2、BeautifulSoup 

pip install bs4

 

1.4.3、Pymongo 

pip install pymongo 

 

1.4.4、Selenium 

pip install selenium 

 

1.4.5、Pillow 

1.打开
https://www.lfd.uci.edu/~gohlke/pythonlibs/

2.搜索找到“pillow”

3.根据自己系统的版本选择对应的下载包 (我根据我的系统和Python版本选了对应的版本,将文件放入Scripts文件夹中)


 
4.安装 

pip install Pillow-6.2.1-cp35-cp35m-win_amd64.whl 

 

1.4.6、pytesseract 

1.安装 pytesseract 

pip install pytesseract 

 

2.安装 tesseract 下载并安装:

Tesseract的github地址:https://github.com/tesseract-ocr/tesseract

Tesseract的安装:

(1)Tesseract本身没有windows的安装包,不过它指定了一个第三方的封装的windows安装包,在其wiki上有说明,大家可直接到这个地址进行下载: https://digi.bib.uni-mannheim.de/tesseract/

下载后就是一个exe安装包,直接右击安装即可,安装完成之后,配置一下环境变量,编辑 系统变量里面 path。

这样,我们的准备工作就基本完成,如果有另外的需求,在实战中再进行安装,接下来就 可以实战 Python 爬虫了。  

发布了66 篇原创文章 · 获赞 25 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/Yansky58685/article/details/102882421