学习python3,网络爬虫的过程(第一天)

1、第一步,安装python3,已有,跳过。
2、requests库安装 :
在cmd终端,输入pip3 install requests,已有,跳过。
3、安装Selenium自动化测试工具:
可以利用它驱动浏览器执行特定的操作,安装方法:在cmd终端,输入pip3 install selenium,已有,跳过。
4、chromDriver安装:
与Selenium自动化测试工具配合使用,需要查询chrome版本号下载其对应的chromDriver,查询及下载地址可以看这个网址(转)http://www.cnblogs.com/wuhl-89/p/9453885.htm。下载完成后要将文件拖入到python安装路径下的Scripts文件里面(或者执行路径添加到环境变量中),查询python安装路径方法,在cmd终端输入:where python。
这里写图片描述
然后可以在cmd终端输入chormdriver判断是否安装成功:
这里写图片描述
5、PhantomJSan安装:
它是一个无界面的、可脚本编程的WebKit引擎,它原生支持多种Web标准:DOM操作、CSS选择器、JSON、Canvas以及SVG。
Selenium支持PhantomJS,这样运行时就不会再弹出一个浏览器了。它的运行效率也很高,支持各种参数配置,
下载完成后要将文件拖入到python安装路径下的Scripts文件里面(或者执行路径添加到环境变量中),(安装及测试方法转自)https://www.jianshu.com/p/80e984ef94d3
6、aiohttp安装:
requests库是一个阻塞式的HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后才会进行下一步处理。这个过程比较耗费时间,aiohttp可以让我们在等待过程中去执行一些其他命令,提高爬取效率,安装方法,在cmd终端,输入pip3 install aiohttp
验证方法,cmd终端进入python,看是否能引入aiohttp库,不报错就是安装成功了。
这里写图片描述
7、解析库安装:
从网页提取信息,方法:正则,lxml,Beautiful Soup pyquery等,正则python自带,
其他都可以通过pip安装。,在cmd终端,分别输入pip3 install lxml pip3 install beautifulsoup4
pip install pyquery
lxml和pyquery验证是否安装成功:cmd终端进入python,看是否能引入gez库,不报错就是安装成功
Beautiful Soup验证是否安装成功:
这里写图片描述
8、tesserocr的安装:
在爬取过程中,难免会遇到各种验证码,而且大多数验证码还是图形验证码,这时我们可以直接用OCR来识别。OCR就是光学字符识别,指通过扫描字符,将其形状转成电子文本的过程,tesserocr是Python的一个OCR识别库
下载安装方法,需要先下载tesseract,下载地址:https://digi.bib.uni-mannheim.de/tesseract/,不带dev的版本为稳定版本, 例如:我下载的是tesseract-ocr-setup-3.05.01-20170602.exe,安装后执行cmd,输入pip3 install tesserocr pillow 安装,这里我没有安装成功,所以使用了wheel安装。具体方法:(转)https://my.oschina.net/u/3273360/blog/1845039
将tessactor环境变量,和它下面的tessdata也添加进去,添加后记住一定要重启!!!!
之后测试tessactor:1、在cmd终端进入图片所在路径、2,输入tesseract image.png result -l eng,这时会在目录下生成一个result.txt文件,就是翻译结果
这里eng表示是英文的验证码。这里如果出现找不到语言这里写图片描述
就输入SET TESSDATA_PREFIX=D:\Tesseract-OCR\tessdata,等号后就是你安装目录的tessdata文件夹目录。
成功结果:
这里写图片描述
这里写图片描述
然后用python测试

import tesserocr
from PIL import Image
image = Image.open('image.png')
print(tesserocr.image_to_text(image))

结果

 print(tesserocr.image_to_text(image))
  File "tesserocr.pyx", line 2400, in tesserocr._tesserocr.image_to_text
RuntimeError: Failed to init API, possibly an invalid tessdata path: D:\Users\Administrator\AppData\Local\Programs\Python\Python36\

解决方法是创建D:\Users\Administrator\AppData\Local\Programs\Python\Python36这个文件夹,然后将Tesseract-OCR内的tessdata文件夹复制过去
这里写图片描述
9、数库安装:
(1)由于已经安装过了mysql,跳过。
(2)Redis安装:(转自)http://www.runoob.com/redis/redis-install.html
10、储存库的安装:
(1)由于已将安装鼓了pyMySql,跳过,pip install pymysql
(2)redis-py安装 pip install redis
11、web库的安装:使用web服务搭建API接口
(1)Flask安装:pip install flask
验证:

from flask import Flask
app = Flask(__name__)
@app.route("/")
def hello():
    return "hello word!"
if __name__ == "__main__":
    app.run()

控制台输出:

 * Serving Flask app "test" (lazy loading)
 * Environment: production
   WARNING: Do not use the development server in a production environment.
   Use a production WSGI server instead.
 * Debug mode: off
 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)

然后直接访问http://127.0.0.1:5000/
结果:
这里写图片描述
后面会用它和Redis维护动态代理池和Cookies池
(2)Tornado安装
安装:pip install tornado
验证:

import tornado.ioloop
import tornado.web
class MainHandler(tornado.web.RequestHandler):
    def get(self):
        self.write("Hello word")
def make_app():
    return tornado.web.Application([(r"/",MainHandler),])

if __name__ == "__main__":
    app = make_app()
    app.listen(8888)
    tornado.ioloop.IOLoop.current().start()

运行后控制台无输出,直接打开http://127.10.0.1:8888/,显示返回数据Hello word
之后会用Tornado+Redis来搭建一个ADSL拨号代理器
12、app爬取相关库的安装
抓包工具有1、Charles ;2、mitmproxy,它们可以分析一些简单接口 。3、mitmdump分析复杂接口。
还需要对APP进行自动化控制,APPium工具
(1)Charles、已经安装,跳过
(2) mitumproxy安装,使用pip命令pip install mitmproxy
(3)Appium安装
13、爬虫框架安装:
(1)pyspider的安装,安装方法:pip install pyspider
验证方法:在cmd窗口输入:pyspider all
这里写图片描述
然后在浏览器输入localhost:5000/,浏览器跳转
这里写图片描述
(2)Scrapy安装,依赖的库很多,有Twisted 、lxml和 pyOpenSSL
1、lxml前面已经安装了
2、pyOpenSSL安装:https://pypi.org/project/pyOpenSSL/#files下载whl文件安装
3、安装Twisted:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,找到这里写图片描述
下载32或64位的我的(Twisted-18.7.0-cp36-cp36m-win_amd64.whl)
4、安装PyWin32: pip install pywin32
5、安装Scrapy:pip install Scrapy
安装结束后,cmd模式输入Scrapy出现以下情况安装成功
这里写图片描述
(3)Scrapy-Splash的安装
安装前要先安装Docker
Docker安装方法:https://docs.docker.com/toolbox/toolbox_install_windows/
这里写图片描述
验证是否安装成功,在cmd内输入docker(关闭cmd窗口重新开启再输入)
这里写图片描述
成功后再安装Splash
cmd命令:
14、部署相关库的安装
1、docker安装
2、Scrapyd的安装:cmd模式 pip install scrapyd
3、Scrapyd-Client安装:pip install scrapyd-clinet
4、Scarpyd API安装:pip install python-scrpyd-api
5、Scrapyrt安装:pip install scrapyrt
6、Gerapy安装:pip install gerapy
后面几个2、3、4、5、cmd提示需求已经满足,不过安装了一天,以后用到了再想办法解决吧。。

猜你喜欢

转载自blog.csdn.net/luslin/article/details/81605351