Node爬虫：爬取新浪博客 - 代码天地

Node爬虫：爬取新浪博客

编程语言 2018-05-19 01:51:06 阅读次数: 2

《Node爬虫》系列文章：

借助前面已经实现的图片下载器(pictureDownload.js)、网页下载器(htmlDownload.js)、网页数据抽取器(htmlExtactor.js)，爬取新浪博客就比较轻松了，如下：

#!/usr/bin/env node

const fs = require('fs')
const ejs = require('ejs')
const util = require('util')
const path = require('path')
const mkdirp = require('mkdirp')
const join = path.join
const readFile = util.promisify(fs.readFile)
const writeFile = util.promisify(fs.writeFile)
const extract = require('./lib/extract')
const pictureDownloader = require('./lib/pictureDownloader')
const blogDir = join(process.cwd(), './blog')
const uid = process.argv[2]

async function fetch(uid) {
  // 生成目录
  mkdirp.sync(blogDir)
  mkdirp.sync(blogDir + '/imgs')
  mkdirp.sync(blogDir + '/post')

  // 获取数据
  let data = await extract(uid)

  // 写入数据
  writeFile(join(blogDir, 'data.json'), JSON.stringify(data), 'utf8')

  // 批量下载图片
  data.imgs.map(({url, name}) => {
    pictureDownloader(url, join(blogDir, 'imgs', name))
  })

  // 生成HTML
  let tplIndex = await readFile(__dirname + '/tpl/index.html', 'utf8')
  let tplBlog = await readFile(__dirname + '/tpl/blog.html', 'utf8')
  // index.html
  writeFile(join(blogDir, 'index.html'), ejs.render(tplIndex, data), 'utf8')
  // post/[n].html
  for (let i = 0; i < data.post.length; i++) {
    await writeFile(join(blogDir, `/post/${i + 1}.html`), ejs.render(tplBlog, data.post[i]), 'utf8')
  }
}

if (/\d{10}/.test(uid)) {
  fetch(uid)
} else {
  console.info(`\n请输入正确的新浪博客UID, 例如 dature 1263917762\n`)
}

上述代码，使用模版(tpl/index.htm和tpl/blog)重新生成了 html。

完整的代码见：https://github.com/junyiz/dature。

猜你喜欢

转载自my.oschina.net/junyiz/blog/1648000

Node爬虫：爬取新浪博客

爬虫爬取新浪微博

简单python爬虫爬取新浪新闻

Python爬虫爬取新浪新闻内容

爬虫：新浪详情新闻爬取总结

python爬虫：爬取新浪新闻数据

第一个Python爬虫，爬取某个新浪博客所有文章并保存为doc文档

node爬虫：爬取csdn博客并保存为 markdown 文件

爬虫实践---新浪微博爬取+json+csv

最简单的python爬虫，爬新浪博客的主页

爬取新浪新闻

node爬虫爬取csdn数据

node：爬虫爬取网页图片

node js 爬虫爬取静态页面，

爬虫---lxml爬取博客文章

爬虫 - 博客爬取并入库

python[爬虫]爬取百万条新浪新闻新浪滚动新闻中心(多进程)

爬取新浪微博

新浪股票信息爬取

新浪微博爬取

python爬取新浪新闻

爬取新浪存入MySQL

Node.js爬取妹子图-crawler爬虫的使用

Node JS爬虫：爬取瀑布流网页高清图

Node 爬虫，批量爬取头条视频并保存

node 爬虫实战 - 爬取拉勾网职位数据

Node HTTP 小爬虫爬取微软官方商城

Node.js 爬虫爬取电影信息

Python爬虫爬取博客园作业

爬虫爬取博客园文章的文字【练手】

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)