0. 通用爬虫框架包括:
(1) 将爬取url加入队列,并获取指定url的前端资源
(2)解析前端资源,获取指定所需字段的值,即获取有价值的信息
(3)将有价值的字段内容存储,持久化到数据库,或直接使用IO写入文件
特性:
(1)一般获取到前端资源后通过管道传输数据并异步处理数据;或者使用异步回调函数进行处理数据
1. node-crawler的下载与安装
npm install crawler
使用此命令将crawler安装到全局环境(Node.js没有虚拟环境的概念)
2. 第一个简单的crawler爬虫应用程序