Node HTTP 小爬虫爬取微软官方商城

其他 2020-03-18 09:51:12 阅读次数: 0

Node HTTP 爬虫

向目标网站发送请求，拿到html文档，当然是字符串的形式，然后用js或者cheerio插件在字符串html文档中需要的信息提取出来

yarn add cheerio

仅为了演示功能这里只爬取部分信息：

/* 
    https://www.microsoftstore.com.cn/
    yarn add cheerio 这个插件用于解析字符串里面的html
    思路：
        发送请求到指定网站，拿到网站响应的数据然后开始解析，封装成数组
*/
const https = require('https');
const $ = require('cheerio');
const option = {
    protocol: "https:",
    hostname: "www.microsoftstore.com.cn",
    port: 443,
    method: "GET"
}


https.request(option, res => {
    var rawData = "";
    res.on("data", chunk => {
        rawData += chunk;
    });
    res.on("end", () => {
        // console.log(rawData);
        filterData(rawData);
    });
}).end();

function filterData(data){
    var result = [];
    var items = $(data).find('.listContainerInner li');
    $(items).each((index,item)=>{
        let $item = $(item);
        var param = {
            url:$item.find('img').attr('data-src'),
            name:$item.find('.name h4').text().replace(/\n|\t/g,""),
            price:$item.find('.price strong').text()
        }
        result.push(param);
    });
    console.log(result);
    return result;
}

效果：

猜你喜欢

转载自www.cnblogs.com/ltfxy/p/12515407.html

Node HTTP 小爬虫爬取微软官方商城

07 Node.js——HTTP小爬虫

node.js学习笔记--HTTP之小爬虫

node 利用http和cheerio编写简易爬虫

node内置模块——http模块：get、post、爬虫

node之http模块之爬虫和event

Node学习之HTTP

node初探之http

node——http模块使用

Node http，buffer

Node JS http模块

node 和 http

http核心模块 node

node http核心模块

node(http, url)

Node --- > http数据上传

node的http模块

Node 之http模块

node核心 http模块

node http模块

node_HTTP协议

node http服务

node中的http

node（http、狗狗接口）

node中的http模块

node内置模块——Http模块、url模块、querystring小模块

07慕课网《进击Node.js基础（一）》HTTP小爬虫

Node.js从无到有-No-6（HTTP小爬虫）

node.js学习笔记--HTTP之Promise重写小爬虫

Node-Red HTTP Request Node for Beginners

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)