nodejs爬虫获取网页信息 - 代码天地

nodejs爬虫获取网页信息

其他 2020-03-16 12:50:52 阅读次数: 0

var http = require("https");

var fs = require('fs');

var iconv = require('iconv-lite');

var cheerio = require('cheerio')

function getWeb(url, charset) {
  console.log(url);
  return new Promise((resolve) => {
    http.get(url, function (res) {
      var arrBuf = [];
      res.on("data", function (chunk) { //chunk 是一个 buffer对象
        arrBuf.push(chunk);
      })
        .on("end", function () {
          var chunkAll = Buffer.concat(arrBuf);
          var str = iconv.decode(chunkAll, charset) // 汉字不乱码
          resolve(str)
        }).on('error', (err) => {
          console.log(err);
        });
    });
  })
}

async function getSrcArr(host, path, page,positon,charset) { //返回一个promise
  var movie_detail_src_arr = [];
  for(var i = 1; i <= page; i++){
    var res = await getWeb(`${host}${path}${i}.html`, charset);
    var $ = cheerio.load(res);
    $(positon).each(function () { movie_detail_src_arr.push(host + $(this).attr('href')) });
  }
  return new Promise((res)=>{
    res(movie_detail_src_arr)
  }).catch((e)=>{
    console.log(e);
  })
}

猜你喜欢

转载自www.cnblogs.com/dangdanghepingping/p/12503043.html

nodejs爬虫获取网页信息

爬虫（一）——用Requests模块获取网页信息

爬虫获取知乎登陆的网页信息

关于爬虫中获取目标网页编码、解码信息

NodeJs获取url信息

python 爬虫网页信息

NodeJS 获取网页源代码

爬虫：网页信息提取

nodeJs 实现爬取网页信息

Python爬虫 - 获取网页编码

Golang---goquery爬虫获取golang语言中文网页面信息并保存MySQL

python3 爬虫第一步简单获取网页基本信息

Python爬虫入门7：HTML报文解析获取网页基本信息

获取网页信息遇到的问题

01步获取网页信息

获取网页内文本信息

网页信息获取--requests库

（java）Jsoup爬虫学习--获取网页所有的图片，链接和其他信息，并检查url和文本信息

Python爬虫获取楼盘信息

python爬虫：获取电影信息~

nodejs获取文件信息，判断是文件或目录

Nodejs获取天气信息并传递给前端

Python爬虫抓取+分析+提取网页信息

java爬虫爬取网页信息

【NodeJS】爬虫之cheerio抓取网页数据

爬虫基础：python获取网页内容

爬虫基础：获取网页中的指定内容

爬虫---获取网页数据的几种方式

python爬虫基础--获取并解析网页

python 爬虫 selenuim获取动态网页

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)