python 编写爬虫常用包下载地址、工具网站以及相关安装问题集合(持续更新)

版权声明:转载请标注出处与作者,写文不易,相互尊重从小事做起。 https://blog.csdn.net/JasonRaySHD/article/details/82493776

转载请标明出处,谢谢。以下链接出现问题请私戳或留言,我尽快解决。


免费代理ip网站: http://www.xicidaili.com/nn/


geckodriver 下载地址: https://github.com/mozilla/geckodriver/releases
由于防火墙原因,可能不能直接访问的,请参考我的另外一篇博客:
https://blog.csdn.net/JasonRaySHD/article/details/82469969

pyinstaller 支持python3.7的版本
https://github.com/pyinstaller/pyinstaller/archive/develop.tar.gz
直接运行命令(pip install https://github.com/pyinstaller/pyinstaller/archive/develop.tar.gz) 即可安装

wwwscan.exe
http://pan.baidu.com/s/1c0kXufe
简单介绍wwwscan的文章
http://blog.chinaunix.net/uid-26726420-id-3205088.html

OCR技术–Tesseract(有关验证码处理) 下载地址:
https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-3.02.02-win32-lib-include-dirs.zip/download

Tor代理服务器(洋葱路由)下载地址:(需要先翻墙…)
https://www.torproject.org/projects/torbrowser.html.en#downloads

linux虚拟机
http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1804.iso


MySql 下载地址: https://dev.mysql.com/downloads/
MySql 学习地址: http://www.runoob.com/mysql/mysql-tutorial.html
Mysql 数据类型详解:
https://www.cnblogs.com/Caveolae/p/7058890.html


正则表达式学习+练习地址:
https://regex101.com/

Jason数据格式讲解:
https://blog.csdn.net/yuzhangsir/article/details/76599940

BeautifulSoup 深入理解:
https://cuiqingcai.com/1319.html

lxml 用法讲解:
https://blog.csdn.net/flyingfishmark/article/details/51272480

写的很好的一篇有关爬虫伪装(ip,headers,蜜罐陷阱的避免等)的博客
https://blog.csdn.net/c406495762/article/details/72793480/

《精通python爬虫框架scrapy》书中源码地址:
https://github.com/scalingexcellence/scrapybook

lambda用法讲解:
https://www.cnblogs.com/hf8051/p/8085424.html

scrapy框架中browsercookie安装问题:安装pycrypto.whl 出现问题:
解决办法:
1、先到这个网站下载下来pycrypto.tar(由于不怎么常用下载下来的是一个压缩包,在一个地方解压缩后,在命令行中cd跳转到该路径下python setup.py install安装)
要是这一步非常顺利的话,就可以再次尝试pip安装browsercookie,并忽略之后的内容。
2、https://blog.csdn.net/a624806998/article/details/78596543 内容非常详细,我就是看这个解决了一半,然后看了下评论区里面写的 https://www.jianshu.com/p/a73fd1af5e99 这个文章就解决了。希望对你有帮助。
对了,添加/修改了用户变量,记得重新打开一遍命令窗口,否则之前的内容不会更新

强调一下:

上面这篇文章中提到的PhatomJs已与Selenium和平?分手,目前只支持浏览器无头模式,详细描述见这篇博客,写的也挺好:
https://blog.csdn.net/qq_30242609/article/details/79323963


安装python的很多包时,出现错误: error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual

解决方法:

Microsoft visual c++ 14.0下载地址:
https://pan.baidu.com/s/1WaBxFghTll6Zofz1DGOZBg
1、失效请留言(私信)
2、这里引用了一篇我找到的博客,原博客地址:
https://blog.csdn.net/qq_38316655/article/details/79417709

或出现问题: Failed building wheel fo ****

到下面这个网站下载响应的whl文件:
https://www.lfd.uci.edu/~gohlke/pythonlibs/#mysqlclient

注意!最好不要用qq浏览器,360浏览器什么的,会被禁止访问,出现404页面,网站有相关具体说明如下:

这里写图片描述

翻译一下:如果下载失败,请:
1、刷新页面
2、设置浏览器,使其允许网站javascript的运行
3、关闭下载管理(没懂…)
5、用firefox浏览器访问该网址
6、减少下载频率和数量(应该是网站的反爬虫机制) 要是还有问题,那么关注该网站的其他说明。

下载举例:

例如: mysqlclient‑1.3.13‑cp37‑cp37m‑win_amd64.whl 其中:
1.3.13 为mysqlclient版本
cp37/cp37m 为支持的python版本->3.7

下载完成后,跳转到该文件的目录下 运行pip install 文件名就ok了

其他我在学习过程中遇到的问题,请看:
https://mp.csdn.net/mdeditor/82562055
希望对你有所帮助

猜你喜欢

转载自blog.csdn.net/JasonRaySHD/article/details/82493776
今日推荐