Scrapy——初识

什么是Scrapy?
Scrapy是一个健壮的网络框架,它可以从各种数据源中抓取数据。以健壮又有效的方式抽取大量数据。
优势

  • 使用Scrapy,你只需一个简单的设置,就能完成其他爬虫框架中需要很多类、插件和配置才能完成的工作。
  • 允许将数据清洗、格式化、装饰化以及将这些数据存出道数据库中等操作级联起来。
  • 由于Scrapy是基于事件的,这就能够让我们在拥有上千个打开的链接时,可以通过平稳的操作拆分吞吐量的延迟。

对Scrapy的正确理解
* Scrapy不是Apache Nutch,也就是说,它不是一个通用的网络爬虫。Scrapy是用于提取结构化信息的,需要人工介入,设置合适的XPath或CSS表达式。而Apache Nutch则是获取通用页面并从中提取信息。
* 它与搜索引擎无关。
* 它不是类似于MySQL、MongoDB或者Redis的数据库。它既不存储数据,也不索引数据。它只用于抽取数据。

猜你喜欢

转载自blog.csdn.net/mashaokang1314/article/details/82667687