学习python3，网络爬虫的过程（第一天）

1、第一步，安装python3,已有，跳过。
2、requests库安装：
在cmd终端，输入pip3 install requests,已有，跳过。
3、安装Selenium自动化测试工具：
可以利用它驱动浏览器执行特定的操作，安装方法：在cmd终端，输入pip3 install selenium,已有，跳过。
4、chromDriver安装：
与Selenium自动化测试工具配合使用，需要查询chrome版本号下载其对应的chromDriver，查询及下载地址可以看这个网址（转）http://www.cnblogs.com/wuhl-89/p/9453885.htm。下载完成后要将文件拖入到python安装路径下的Scripts文件里面（或者执行路径添加到环境变量中），查询python安装路径方法，在cmd终端输入：where python。
这里写图片描述
然后可以在cmd终端输入chormdriver判断是否安装成功:

5、PhantomJSan安装：
它是一个无界面的、可脚本编程的WebKit引擎，它原生支持多种Web标准：DOM操作、CSS选择器、JSON、Canvas以及SVG。
Selenium支持PhantomJS,这样运行时就不会再弹出一个浏览器了。它的运行效率也很高，支持各种参数配置，
下载完成后要将文件拖入到python安装路径下的Scripts文件里面（或者执行路径添加到环境变量中），（安装及测试方法转自）https://www.jianshu.com/p/80e984ef94d3
6、aiohttp安装：
requests库是一个阻塞式的HTTP请求库，当我们发出一个请求后，程序会一直等待服务器响应，直到得到响应后才会进行下一步处理。这个过程比较耗费时间，aiohttp可以让我们在等待过程中去执行一些其他命令，提高爬取效率，安装方法，在cmd终端，输入pip3 install aiohttp
验证方法，cmd终端进入python，看是否能引入aiohttp库，不报错就是安装成功了。
这里写图片描述
7、解析库安装：
从网页提取信息，方法：正则，lxml，Beautiful Soup pyquery等,正则python自带，
其他都可以通过pip安装。，在cmd终端，分别输入pip3 install lxml pip3 install beautifulsoup4
pip install pyquery
lxml和pyquery验证是否安装成功：cmd终端进入python，看是否能引入gez库，不报错就是安装成功
Beautiful Soup验证是否安装成功：
这里写图片描述
8、tesserocr的安装：
在爬取过程中，难免会遇到各种验证码，而且大多数验证码还是图形验证码，这时我们可以直接用OCR来识别。OCR就是光学字符识别，指通过扫描字符，将其形状转成电子文本的过程，tesserocr是Python的一个OCR识别库
下载安装方法，需要先下载tesseract，下载地址：https://digi.bib.uni-mannheim.de/tesseract/，不带dev的版本为稳定版本，例如：我下载的是tesseract-ocr-setup-3.05.01-20170602.exe，安装后执行cmd，输入pip3 install tesserocr pillow 安装，这里我没有安装成功，所以使用了wheel安装。具体方法：（转）https://my.oschina.net/u/3273360/blog/1845039
将tessactor环境变量，和它下面的tessdata也添加进去，添加后记住一定要重启！！！！
之后测试tessactor：1、在cmd终端进入图片所在路径、2，输入tesseract image.png result -l eng，这时会在目录下生成一个result.txt文件，就是翻译结果
这里eng表示是英文的验证码。这里如果出现找不到语言这里写图片描述
就输入SET TESSDATA_PREFIX=D:\Tesseract-OCR\tessdata，等号后就是你安装目录的tessdata文件夹目录。
成功结果：

然后用python测试

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

结果

 print(tesserocr.image_to_text(image))
  File "tesserocr.pyx", line 2400, in tesserocr._tesserocr.image_to_text
RuntimeError: Failed to init API, possibly an invalid tessdata path: D:\Users\Administrator\AppData\Local\Programs\Python\Python36\

解决方法是创建D:\Users\Administrator\AppData\Local\Programs\Python\Python36这个文件夹，然后将Tesseract-OCR内的tessdata文件夹复制过去
这里写图片描述
9、数库安装：
（1）由于已经安装过了mysql，跳过。
（2）Redis安装：（转自）http://www.runoob.com/redis/redis-install.html
10、储存库的安装：
（1）由于已将安装鼓了pyMySql，跳过，pip install pymysql
（2）redis-py安装 pip install redis
11、web库的安装：使用web服务搭建API接口
（1）Flask安装：pip install flask
验证：

from flask import Flask
app = Flask(__name__)
@app.route("/")
def hello():
    return "hello word!"
if __name__ == "__main__":
    app.run()

控制台输出：

 * Serving Flask app "test" (lazy loading)
 * Environment: production
   WARNING: Do not use the development server in a production environment.
   Use a production WSGI server instead.
 * Debug mode: off
 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)

然后直接访问http://127.0.0.1:5000/
结果：
这里写图片描述
后面会用它和Redis维护动态代理池和Cookies池
(2)Tornado安装
安装：pip install tornado
验证:

import tornado.ioloop
import tornado.web
class MainHandler(tornado.web.RequestHandler):
    def get(self):
        self.write("Hello word")
def make_app():
    return tornado.web.Application([(r"/",MainHandler),])

if __name__ == "__main__":
    app = make_app()
    app.listen(8888)
    tornado.ioloop.IOLoop.current().start()

运行后控制台无输出，直接打开http://127.10.0.1:8888/，显示返回数据Hello word
之后会用Tornado+Redis来搭建一个ADSL拨号代理器
12、app爬取相关库的安装
抓包工具有1、Charles ；2、mitmproxy，它们可以分析一些简单接口。3、mitmdump分析复杂接口。
还需要对APP进行自动化控制，APPium工具
(1)Charles、已经安装，跳过
(2) mitumproxy安装，使用pip命令pip install mitmproxy
(3)Appium安装
13、爬虫框架安装：
(1)pyspider的安装，安装方法：pip install pyspider
验证方法：在cmd窗口输入：pyspider all
这里写图片描述
然后在浏览器输入localhost:5000/，浏览器跳转

(2)Scrapy安装，依赖的库很多，有Twisted 、lxml和 pyOpenSSL
1、lxml前面已经安装了
2、pyOpenSSL安装：https://pypi.org/project/pyOpenSSL/#files下载whl文件安装
3、安装Twisted:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到这里写图片描述
下载32或64位的我的（Twisted-18.7.0-cp36-cp36m-win_amd64.whl）
4、安装PyWin32: pip install pywin32
5、安装Scrapy:pip install Scrapy
安装结束后，cmd模式输入Scrapy出现以下情况安装成功

(3)Scrapy-Splash的安装
安装前要先安装Docker
Docker安装方法：https://docs.docker.com/toolbox/toolbox_install_windows/
这里写图片描述
验证是否安装成功，在cmd内输入docker（关闭cmd窗口重新开启再输入）

成功后再安装Splash
cmd命令：
14、部署相关库的安装
1、docker安装
2、Scrapyd的安装：cmd模式 pip install scrapyd
3、Scrapyd-Client安装：pip install scrapyd-clinet
4、Scarpyd API安装：pip install python-scrpyd-api
5、Scrapyrt安装:pip install scrapyrt
6、Gerapy安装：pip install gerapy
后面几个2、3、4、5、cmd提示需求已经满足，不过安装了一天，以后用到了再想办法解决吧。。

学习python3，网络爬虫的过程（第一天）

猜你喜欢