爬虫前的准备工作

个人建议在学习爬虫之前,可以简略看一下url,http协议,web前端,html, css, js,ajax,re, xpath,xml等知识,看完这些知识或许还不是透彻,这也不是很重要,但最起码要看得懂网页源码。

  • 首先确保你有python环境。
    可以在命令提示符窗口输入python检测一下是否已安装python。
  • 请求库的安装。
    常用的第三方库有requests,Selenium和aiohttp。
    requests安装,在命令提示符窗口输入pip3 install requests.第三方库,python默认不会自带这个库。
    Selenium安装,在命令提示符窗口输入pip3 install Selenium.自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击,下拉等操作。
    aiohttp安装,在命令提示符窗口输入pip3 install aiohttp.
    Selenium是一个自动化测试工具,需要浏览器来配合使用,使用Chrome浏览器注意ChromeDriver的驱动配置,若使用Firefox注意GeckoDriver的配置等
  • 解析库的安装
    lxml是python的一个解析库,支持HTML,xml的解析,支持XPath的解析方式,解析效率高。
    在命令提示符窗口输入pip3 install lxml,进行安装.
    Beautiful Soup是python的HTML或者xml的解析库,可以用它来从网页中提取数据。
    在命令提示符窗口输入pip3 install beautifulsoup4,进行安装.
    pyquery同样是一个强大的网页解析工具 ,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器。
    还有一些爬取有验证码等阻碍的库,未在此列出,后续会补出。

注意事项:
易给服务器带来巨大的负担,请尽可能robots协议,一般在对方网站的根目录下有robots.txt。
不要编写僵尸爬虫;
在爬取数据时,请务必加上一定的延迟;
请不要使用爬取的数据损坏对方的利益,否则可能会遭遇官司。
爬虫入门容易精通难,在爬取海量数据的时候,不得不考虑去重的效率,内存的优化,数据库的优化,以及令人头疼的反反爬虫。

在此简单提供一些学习爬虫的参考资料:

  • 廖雪峰网站
  • 哔哩哔哩,千峰教育
  • 阮一峰网站
  • 哔哩哔哩,北理工,小嵩老师
  • 精通Python爬虫框架Scrapy, 人民邮电出版社

猜你喜欢

转载自blog.csdn.net/dldl1718/article/details/86552599