node js 爬虫爬取静态页面,

先打一个简单的通用框子

//根据爬取网页的协议 引入对应的协议, http||https
var http = require('http');
//引入cheerio  简单点讲就是node中的jquery  jquery写法获取所得页面dom元素
var cheerio = require('cheerio');
//目标网址  这里是图片网址
var url = 'http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=others&pos=0';
//文件读写
var fs = require('fs');


//采用http模块向服务器发起一次get请求
http.get(url, function(res) { //get到x网址,成功执行回调函数
  var html = ''; //用来存储请求网页的整个html内容
  res.setEncoding('utf-8'); //防止中文乱码
  //监听data事件,每次取一块数据
  res.on('data', function(chunk) {
    html += chunk;
  });
  //监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数
  res.on('end', function() {
   console.log(html)
  });

}).on('error', function(err) { //http模块的on data,on end ,on error事件
  console.log(err);
});

  

猜你喜欢

转载自www.cnblogs.com/caihua0405/p/10541074.html