Node.js简单实现爬虫

在实现Node.js获取数据之前,先要了解什么是爬虫。

什么是爬虫

使用数据请求一段内容,然后将这段内容做数据清洗,最后在通过后端服务器发送到前台页面。

安装cheerio依赖包

安装命令是:npm install cheerio。
cheerio的功能是用来操作dom元素的,可以将request返回来的数据转换成可供dom操作的数据。
在这里插入图片描述

引入并使用

在这里插入图片描述
本文中,我们将要以京东的导航栏为例。
首先进入谷歌浏览器,右键选择“检测”,然后选择“Network”,就可以得到请求数据的网址:https://www.jd.com/。
在这里插入图片描述
数据请求使用get(),第一个参数位请求数据的地址,第二个参数为回调函数。
在这里插入图片描述
添加错误事件并把具体输出
在这里插入图片描述
头部请求
在这里插入图片描述
最后我们建立一个静态服务器
在这里插入图片描述
在终端中输入 node jd.js 再进入http://localhost:8000 这样我们完成了对导航栏数据的获取。

猜你喜欢

转载自blog.csdn.net/zhanleibo/article/details/90244866