Python爬虫是什么以及常用库介绍

其他 2020-03-17 21:10:02 阅读次数: 0

文章目录

1、常用请求库
2、常用解析库
3、常用数据库
4、爬取APP相关库
5、框架

爬虫整个过程主要由三部分组成：抓取页面、解析页面、存储数据。抓取页面需要请求库的支持，解析页面需要解析库的支持，数据存储需要数据库以及连接数据库的包的支持。
在这里插入图片描述

在这里插入图片描述

1、常用请求库

requests库：Python3内置了另外一个请求库urllib，但这个库使用起来比较繁琐，一些方法语义上也不是很明确。所以有了requests库，这个库属于第三方库，需要自己另外安装。
Selenium库：Selenium是一个可以实现自动化爬虫的库，这个库非常强大，可以利用这个库驱动浏览器完成爬取。我们可以写上一些自动化脚本，然后便可以放任程序为我们爬取页面。
ChromeDriver：ChromeDriver是一个驱动器，想要实现自动化爬虫只有Selenium还不够，还需要驱动器。ChromeDriver是谷歌浏览器的驱动。
像驱动的话还有火狐浏览器的驱动，但我觉得火狐用起来没有谷歌那么流畅，就没再用过了。想要爬取简单的页面，通常使用requests + Selenium + ChromeDriver的组合就足够了。

2、常用解析库

lxml库：lxml库支持HTML和XML的解析，支持XPath的解析方式，而且解析效率非常高。
Beautiful Soup库：这个库支持HTML和XML的解析，它的优点在于它拥有强大的API，比lxml方便很多，功能也更加强大。
pyquery库：同样很强大，它的API和jQuery（一款js框架）很相似，熟悉前端的使用起来特别方便。我个人也比较喜欢使用这个库。
tesserocr库：tesserocr是Python的一个OCR识别库，主要用于识别验证码等等。

3、常用数据库

数据库包括关系型数据库和非关系型数据库。我常用的就是MySQL、Redis和MongoDB。
PyMySQL、PyMongoDB、redis-py库：这三个库都是连接数据库的，类似于Java的数据库驱动。

4、爬取APP相关库

Charles：是一种抓包修改工具，容易上手，数据请求容易控制，修改简单，抓取数据方便。
mitmproxy：是一个支持HTTP和HTTPS的抓包程序，能够拦截请求，发起请求等等。
Appium：类似于Selenium，属于APP端的自动化测试工具。

5、框架

框架：如果爬取量不大，速度要求也不大，使用requests+selenium等库完全是满足要求的。但是如果爬取量上来了，许多代码都是重复代码，这时候框架就应运而生了。
pyspider：pyspider带有WebUI、脚本编辑器、任务监控器、项目管理等等强大功能。
Scrapy：是一个为了爬取网站数据，提取结构性数据而编写的应用框架。

有错误的地方敬请指出！觉得写得可以的话麻烦给个赞！欢迎大家评论区或者私信交流！

1/4糖柠檬茶

发布了30 篇原创文章 · 获赞 72 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/Orange_minger/article/details/104731724

Python爬虫是什么以及常用库介绍

python爬虫入门request 常用库介绍

Python 爬虫是什么

爬虫常用库介绍

Python中的爬虫是什么

“python爬虫“是什么呢？

python 爬虫之urllib 库的相关模块的介绍以及应用

python 爬虫之requests 库以及相关函数的详细介绍

Python爬虫常用数据库：Request 介绍讲解

爬虫-Python爬虫常用库

python爬虫常用的库

python爬虫常用库

Jetty是什么？Jetty介绍以及配置

【python爬虫】爬虫所需要的爬虫代理ip是什么？

python常用库介绍

常用的python的库介绍

Python爬虫---urllib库介绍

python selenium库爬虫介绍

Python爬虫常用库的安装

Python爬虫常用库的使用

常用Python爬虫库汇总

python爬虫常用库安装

Python 爬虫常用库的安装

Python爬虫常用哪些库？

爬虫笔记1：Python爬虫常用库

【2022 年】Python3 爬虫教程 - 爬虫是什么？

Python爬虫常用库及解析库解析

网络爬虫是什么

网络爬虫是什么？

爬虫是什么

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)