9个用来爬取网络站点的 Python 库 - 代码天地

9个用来爬取网络站点的 Python 库

其他 2019-02-03 18:51:23 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/MOY37RQW1JarN33BgZk/article/details/86582004

640?wx_fmt=png

上期入口：10个不到500行代码的超牛Python练手项目

1️⃣Scrapy

一个开源和协作框架，用于从网站中提取所需的数据。以快速，简单，可扩展的方式。

官网：https://scrapy.org/

相关课程推荐：Python 网站信息爬虫

2️⃣cola

一个分布式爬虫框架。

GitHub：https://github.com/chineking/cola

3️⃣Demiurge

基于 PyQuery 的爬虫微型框架。

官网：https://demiurge.readthedocs.io/en/v0.2/

4️⃣feedparser

通用 feed 解析器。

官网：https://pythonhosted.org/feedparser/

5️⃣Grab

Grab 是一个用于构建 Web scraper 的 python 框架。使用 Grab，您可以构建各种复杂性的 Web scraper，从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。与 HTML 文档的 DOM 树交互。

官网：https://grablib.org/en/latest/

6️⃣MechanicalSoup

用于自动和网络站点交互的 Python 库。

GitHub：https://github.com/MechanicalSoup/MechanicalSoup

7️⃣portia

Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。使用 Portia 可以注释一个网页以识别您想要提取的数据，Portia 将根据这些注释了解如何从类似页面中抓取数据。

GitHub：https://github.com/scrapinghub/portia

8️⃣pyspider

一个强大的爬虫系统。

官网：http://docs.pyspider.org/

9️⃣RoboBrowser

一个简单的，Python 风格的库，用来浏览网站，而不需要一个独立安装的浏览器。

官网：https://scrapy.org/

【关于技术清单】技术清单是由实验楼整合、梳理的一系列知识点合辑；每辑都有MD，PDF和思维导图多样呈现，并提供下载。本期为Python系列，包含5篇精选清单，下载方式如下：

640?wx_fmt=jpeg

相关阅读

8个爽滑的Windows小软件，不好用你拿王思葱砸死我

60人，42天，死磕机器学习，结果如下。

武侠版编程语言...Java像张无忌还是令狐冲？

大量机器学习&深度学习资料

技术变现，到底怎么变？

640?wx_fmt=jpeg

猜你喜欢

转载自blog.csdn.net/MOY37RQW1JarN33BgZk/article/details/86582004

9个用来爬取网络站点的 Python 库

Python工具 | 9个用来爬取网络站点的 Python 库

Python3网络爬虫实战-9、APP爬取相关库的安装：Appium的安装

python 爬取cesium库

Python-Requests库网络爬取实战

Python爬取网易车型库

Python爬取数据之Requests库!

2018.5.3（python网络爬虫与信息提取入门）Requests库的爬取性能分析

Python爬虫之Requests库——网络图片的爬取和存储

Python网络爬虫数据采集实战：Selenium库爬取京东商品

Python爬虫学习（二）盗亦有道（三）Requests库网络爬取实战

Python网络爬虫与信息提取（7）—— 用re库爬取淘宝商品信息

Python网络爬虫逆向分析爬取动态网页、使用Selenium库爬取动态网页、编辑将数据存储入MongoDB数据库

Python网络爬虫与信息提取（一）——Requests库的安装、Requests库的get()方法、爬取网页的通用代码框架

使用Python的Requests/BeautifuiSoup模块进行城市公交网络站点数据爬取

python gevent网络库

Python爬取微信公众号素材库

python学习(23)requests库爬取猫眼电影

python App爬取相关库的安装--Appium的安装

python App爬取相关库的安装--mitmproxy的安装

python App爬取相关库的安装--Charles的安装

Python 利用Requests库爬取单个网页实例

Python爬虫之BeautifulSoup库——爬取大学排名

Python爬虫使用requests库爬取表情包

python 库的爬坑安装.

【Python3网络爬虫开发实战】 1.7-App爬取相关库的安装

Python3网络爬虫实战-8、APP爬取相关库的安装：MitmProxy的安装

Python3网络爬虫实战-7、APP爬取相关库的安装：MitmProxy的安装

Python3网络爬虫实战-6、APP爬取相关库的安装：Charles的安装

Python之Numpy库（9）

今日推荐

手把手教你用 LangChain 实现大模型 Agent

外星人入侵（python）

超全的免费chatGPT列表【建议收藏】

52.2k star! 自己部署gpt4free, 免费使用各种GPT

2024年（第十届）全国大学生统计建模大赛优秀论文解析——中国经济发展与碳排放库兹涅茨曲线的验证研究

【自动驾驶技术】自动驾驶汽车AI芯片汇总——NVIDIA篇

7个免费的ChatGPT网站，给大家送上

Angular v18 正式发布！

【VMware】 vCenter Converter standalone 6.6.0正式版下载

开源日报 | Angular v18；大模型价格战下的推理优化；Mistral AI以开源模型瞄准美国市场；硅谷有自己的鲁迅

数学建模Matlab之数据预处理方法

充电桩---ISO15118协议详细介绍

周排行

慧测学习课件

Mscordacwks.dll/SOS.dll 调试归档

关于深度学习人工智能模型的探讨（二）（7）

Stop Using the text-indent:-9999px

Least Common Multiple（HDU - 1019 ）

Comparator接口的使用方法--例子

修改framework Camera的API,旋转摄像头

机器学习时代的“大数据+”：数据平台的设计与搭建

vue 项目部署到nginx

webstorm 常用插件集合

每日归档

更多

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)