使用Node.js搭建数据爬虫crawler

0. 通用爬虫框架包括:

(1) 将爬取url加入队列,并获取指定url的前端资源

(2)解析前端资源,获取指定所需字段的值,即获取有价值的信息

(3)将有价值的字段内容存储,持久化到数据库,或直接使用IO写入文件

特性:

(1)一般获取到前端资源后通过管道传输数据并异步处理数据;或者使用异步回调函数进行处理数据

1. node-crawler的下载与安装

npm install crawler

使用此命令将crawler安装到全局环境(Node.js没有虚拟环境的概念)

2. 第一个简单的crawler爬虫应用程序

猜你喜欢

转载自www.cnblogs.com/liuzhiqaingxyz/p/10518801.html