【NodeJS】爬虫之cheerio抓取网页数据 - 代码天地

【NodeJS】爬虫之cheerio抓取网页数据

其他 2018-05-27 15:23:10 阅读次数: 0

记录：及其简单的牛客网讨论区爬虫

源代码：

var express = require('express');
var superagent = require('superagent');
var cheerio = require('cheerio');
var url = require('url');

var cnodeUrl = 'https://www.nowcoder.com/discuss';
router.get('/', function(req, res, next) {
    // 用 superagent 去抓取 https://www.nowcoder.com/discuss 的内容
    superagent.get(cnodeUrl).end(function(err, sres){
        // 常规的错误处理
        if(err){
            return next(err);
        }
        // sres.text 里面存储着网页的 html 内容
        var $ = cheerio.load(sres.text);
        var items = [];
        $('.discuss-main').each(function(idx, element){
            var $element = $(element);
            items.push({
                title: $element.find('a').text(),
                href: $element.find('a').attr('href'),
                link: url.resolve(cnodeUrl, $element.find('a').attr('href'))
            });
        });
        res.send(items);
    })
});

目标结构：
这里写图片描述
效果展示：

猜你喜欢

转载自blog.csdn.net/u013451157/article/details/79931758

【NodeJS】爬虫之cheerio抓取网页数据

菜鸟入门之网页数据抓取

网页数据抓取

抓取网页数据

【php网页爬虫】php抓取网页数据

第四章爬虫进阶之动态网页数据抓取

怎么用Python写爬虫抓取网页数据

怎么用Python写爬虫抓取网页数据！

Python爬虫-抓取网页数据并解析，写入本地文件

如何使用 Python 爬虫抓取动态网页数据

用nodejs库cheerio抓取网页内容与图片

网页数据抓取思路

1.3 网页数据抓取

Node.js抓取网页信息（cheerio网络爬虫）

Node.js抓取网页信息并展示（cheerio网络爬虫）

nodejs express cheerio request爬虫

网络爬虫之网页数据解析（JSON与JsonPATH）

网络爬虫之网页数据解析（bs4）

网络爬虫之网页数据解析（XPath）

网络爬虫之网页数据解析（正则re）

初学爬虫之通过urllib库获取网页数据

java简单的抓取网页数据

selenium驱动Chrome抓取网页数据

使用HtmlAgilityPack抓取网页数据

动态网页数据抓取（一）

java网页数据抓取实例

QueryList异步抓取网页数据

httpClient及jsoup抓取解析网页数据

Python抓取网页数据的终极办法

selenium抓取动态网页数据

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)