【新手向】使用nodejs抓取百度贴吧内容

参考教程：https://github.com/alsotang/node-lessons 1~5节

1. 通过superagent抓取页面内容

superagent
    .get('http://www.cnblogs.com/wenruo/')
    .end(function(err, res) {
        if (err) {
            reject(err)
        } else {
            console.log(res.text)
        }
    })

OK 这样就获得了一份HTML代码。

因为获取HTML是异步的，所以我们封装一个函数，返回一个Promise。

// 获取页面html
function getHTML(url) {
    return new Promise(function(resolve, reject) {
        superagent.get(url)
            .end(function(err, res) {
                if (err) {
                    reject(err)
                } else {
                    resolve(res.text)
                }
            })
    })
}

2. 通过cheerio筛选页面数据

总不能通过正则一点一点匹配出数据吧，有这样一个库: cheerio( https://github.com/cheeriojs/cheerio )，有了它，我们可以像jQuery一样轻松的从这个HTML代码中获取需要数据。

现在随便找了一个贴吧的帖子。

因为我们要获取一个帖子的全部内容，所以要首先要获取帖子的页数，然后分别爬取每一页的内容。通过检查元素找到数据对应的html中的位置，找到所对应的一个类 l_reply_num 然后发现其下有两个span，我们获取第二个的数据，就是总页数。

代码如下，这里通过 + 将字符串转为数字。

function getPage(html) {
    let $ = cheerio.load(html)
    return +$('.l_reply_num span').eq(1).text()
}

其他的数据，如标题，昵称，层数等，都可以通过同样的方法获取。

3. 控制并发数量

贴吧的高楼可以有几百上千页，我们能通过 pages.forEach(page => { getHTML(page) }) 同时发起多个异步请求获取数据，但是，网站有可能会因为你发出的并发连接数太多而当你是在恶意请求，把你的 IP 封掉。

这时我们可以通过 async ( https://github.com/caolan/async ) 来实现控制并发的数量，使用方法也很简单：

var async = require("async")

async.mapLimit(urls, 5, function(url, callback) {
    const response = fetch(url)
    callback(response.body)
}, (err, results) => {
    if (err) throw err
    // results is now an array of the response bodies
    console.log(results)
})

通过遍历数组，分别对其中的每一项发起请求，5为控制的并发数量。results是callback中返回数据的集合。

当然上面的代码假设fetch是同步函数了，否则callback应该放在回调函数里面。

4. 结果保存到文件

得到的数据很大，总不能在控制台看，一定要放到文件里。

function writeFile(filename, content, cb) {
    fs.writeFile(filename, content, function(err) {
        if (err) {
          return console.error(err);
        }
        cb && cb()
    })
}

包含三个参数，文件名，存储内容和回调函数。

整体代码如下：

let superagent = require('superagent')
let cheerio = require('cheerio')
let async = require('async')
let fs = require('fs')

// 获取页面html
function getHTML(url) {
    return new Promise(function(resolve, reject) {
        superagent.get(url)
            .end(function(err, res) {
                if (err) {
                    reject(err)
                } else {
                    resolve(res.text)
                }
            })
    })
}

// 获取帖子页数
function getPage(html) {
    let $ = cheerio.load(html)
    return +$('.l_reply_num span').eq(1).text()
}

// 获取帖子标题
function getTitle(html) {
    let $ = cheerio.load(html)
    return $('.core_title_txt').text()
}

// 获取帖子一页内容
function getOnePage(url) {
    return getHTML(url).then(html => {
        let result = []
        let $ = cheerio.load(html)
        $('#j_p_postlist .l_post').each(function(idx, element) {
            let $element = $(element)
            let name = $element.find('.d_name a').text()
            let content = $element.find('.d_post_content').text()
            let floor = $element.find('.tail-info').eq($element.find('.tail-info').length-2).text()
            let time = $element.find('.tail-info').eq($element.find('.tail-info').length-1).text()

            name = name.replace(/[\s\r\t\n]/g, '')
            content = content.replace(/[\s\r\t\n]/g, '')
            if (floor) {
              result.push(`${floor}(${name}/${time})\n${content}\n\n`)
            }
        })
        return result.join('')
    }, err => {
        console.error(err)
    })
}

// 将内容写入到文件
function writeFile(filename, content, cb) {
    fs.writeFile(filename, content, function(err) {
        if (err) {
          return console.error(err);
        }
        cb && cb()
    })
}

function getContent(url) {
    console.log('抓取中...')
    // 帖子后面可能会加 只看楼主 和 页码 选项 这里只添加只看楼主选项 将页码项删除
    let hasSeeLZ = false
    if (url.includes('?')) {
        let search = url.split('?')[1].split('&')
        url = url.split('?')[0]
        for (let query of search) {
            if (query.includes('see_lz')) {
                hasSeeLZ = true
                url = url + '?' + query
                break
            }
        }
    }
    // 开始抓取数据
    getHTML(url).then(html => {
        let page = getPage(html)
        let title = getTitle(html) + (hasSeeLZ ? ' -- [只看楼主]' : '')

        // 控制最大并发为 5
        async.mapLimit([...new Array(page).keys()], 5, function(idx, callback) {
            let pageUrl = url + (hasSeeLZ ? '&' : '?') + 'pn=' + (idx+1)
            getOnePage(pageUrl).then(res => {
                callback(null, res)
            })
        }, function(err, res) {
            if (err) {
                return console.error(err)
            }
            writeFile('result.txt', title + '\n\n' + res.join(''), () => { console.log('抓取完成!') })
        })
    })
}

let queryUrl = 'https://tieba.baidu.com/p/3905448690?see_lz=1'
getContent(queryUrl)

效果展示（真的是随便找的贴内容没看过……）：

原贴内容：

抓取结果：

【新手向】使用nodejs抓取百度贴吧内容

猜你喜欢