人工智能时代,数据先行。随着大数据时代的来临,基于数据而提供的服务越来越多,这些数据几乎都是由爬虫获取并进行规范化提取后完成的。
本系列博客,讲解使用 Scrapy 搭建分布式爬虫并通过 Elasticsearch. 和 django 搭建搜索引擎网站,一方面可以让读者具有获取所需数据的能力,同时也可以让读者深入认知网络知识和编程知识。
本系列博客的思路:
- 环境配置和基础知识铺垫
- 爬取真实数据
- scrapy 突破反爬虫技术
- scrapy 进阶
- scrapy redis 分布式爬虫
- elasticsearch & django 实现搜索引擎
下面是详细的技术内容:
一、环境配置和基础知识铺垫
二、爬取真实数据
三、scrapy 突破反爬虫技术
四、scrapy 进阶
五、scrapy redis 分布式爬虫
六、elasticsearch & django 实现搜索引擎
本系列博客给你的体验:
- 开发爬虫所需要用到的技术以及网站分析技巧
- 理解scrapy的原理和所有组件的使用以及分布式爬虫scrapy-redis的使用和原理
- 理解分布式开源搜索引擎elasticsearch的使用以及搜索引擎的原理
- 体验django如何快速搭建一个实现效果与百度相类似的网站。