node.js做的一个简单爬虫,适合菜鸟级新手,针对无防爬措施的网站 - 代码天地

node.js做的一个简单爬虫,适合菜鸟级新手,针对无防爬措施的网站

其他 2018-08-18 05:24:14 阅读次数: 0

一个爬虫的简单教程用到的依赖 nodejs的request模块，获取目标页面的html代码；使用cheerio模块对html代码做处理;用正则的话也不会拦你; 使用exprerss来起一个服务;

话不多说,先上源码

https://github.com/lyc-123/reptile

具体实现

安装依赖模块 $ npm init 初始化一个项目

npm install express request cheerio --save 安装所需的模块 express用于搭建node服务 request类似于ajax的方式获取一个url里的html代码 cheerio类似于jQuery那样对所获取的html代码进行处理

根目录新建一个app.js var express = require('express'); var app = express(); var fs = require('fs'); var request = require('request'); var cheerio = require('cheerio');

const articalSavePath = "./data"; //文章存放路径

//创建所需文件夹 if (!fs.existsSync(articalSavePath)) { fs.mkdirSync(articalSavePath); }

//这里是简单的爬取几个title app.get('/', function(req, res) {

request('http://bohaishibei.com/post/category/main/', function(error, response, body) {
    if (!error && response.statusCode == 200) {
        $ = cheerio.load(body);
        var arr = [];
        for (var i = 0; i < $('.excerpt').length; i++) {
            arr.push($('.excerpt').find('a').eq(i).text())
        }
        res.json({
            cat: arr
        });

        console.log('a')
        let news_title = '1'
        //这里是把爬取到的数据保存到文件夹里面
        savedContent($, news_title)   
    }
})

})

//保存到本地的代码

let savedContent = function($, news_title) { let x = $(this).find('a').text(); console.log(x) if (x) { x = ' ' + x + '\n'; fs.appendFile('./data/' + news_title + '.txt', x, '', function(err) { if (err) { console.log(err); } }); } };

//起服务

var server = app.listen(3000, function() { console.log('listening at 3000'); });

//源码使用方法 cnpm i 安装依赖 node index.js运行访问 localhost:3000即可看到数据

常见问题要是自己照着敲下来的话,会发现数据都是以字符集编码形式保存起来的, 这里的话我们需要去node中找到cheerio,在引用的js中有一个control.js, 里面有一个字符可以控制是否原数据保存

猜你喜欢

转载自blog.csdn.net/qq_39542027/article/details/78873588

node.js做的一个简单爬虫,适合菜鸟级新手,针对无防爬措施的网站

用node.js从零开始去写一个简单的爬虫

使用node写一个爬虫(原来使用node.js做爬虫如此简单!)

一个Node.js的小爬虫

Node.js创建一个简单的应用

一个最简单的 Node.js Server

一个简单的node.js的例子

5分钟从零开始构建一个Node.js小爬虫程序并生成网站

手把手教你用Node.js爬虫爬取网站数据

使用node.js构建一个web服务器（适合自学）

手把手教你学node.js之一个简单的express应用

推荐一个Oracle学习网站（适合新手）

Node.JS实战36：写一个WAF中间件！防黑客，防攻击

使用最基础的Node，创建一个简单的node.js应用

Node.js学习之搭建一个简单的Node服务器

一个简单的案例帮你理解什么是SpringIOC（适合新手理解其思想）

用python的tkinter写一个简单的概率计算器（适合新手练习）

使用node.js爬网站图

node.js新手入门

用node.js写的第一个爬虫

基于Node.js实现一个小小的爬虫

一个完整的基于Node.js的web应用(入门级)

一个新手菜鸟的JVM 入门初体验

实战：部署一个Web站点（适合新手）

一个菜鸟python网络爬虫入门学习记录——从爬取网站图片开始学习python（1）

Node.js实现简单的爬取

python的爬虫（一）（适合新手）

【自己的整理】node.js直接输出一个非常简单的HTML页面

使用Node.js + MongoDB实现一个简单的日志分析系统

用node.js写一个简单的视频流服务器，支持点播

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)