【Java转Go】Go爬虫篇一（goquery）

前言

学了网络编程，那咱得用，于是就去查了下go爬虫方面的应用，一般来说是使用 go-colly 和 goquery 框架，我这篇用的是 goquery 。

本来我想打算用豆瓣电影来试试的，但是我用 res, err = http.Get(url); 发送了请求，请求地址是没错的，但是没有响应数据，是空的。不知道是不是因为它这个网页是动态的？或者是做了什么反爬机制？

我也不是很懂这方面的知识，之前也就顶多用Java jsoup 去解析过一些小说网站下载小说。而这对我个不懂爬虫的人来说，我也就会解析个html，要是拿不到html，那就没办法了(⊙o⊙)

所以这篇文章的前提是，给那个网站发送请求，返回回来的响应数据能拿到html。

这里演示的是去某小说网站下载小说。

goquery

要用这个框架，还是老规矩，我们得先去下载：

go get github.com/PuerkitoBio/goquery

实现

思路

比如我要下载某本小说，先点进这本小说主页，然后我们需要获取它的文章目录列表，按F12，查看目录列表的元素，是什么class或者id。

后续我们拿到html时，就去body里面找到对应的目录列表的id或class。

比如目录列表是一个ul标签，ul下的li标签就是每一章的章节。然后这个ul有个id，我们可以通过这个id定位到这个ul，然后拿到它下面的所有li标签。

又或者是ul没有id，而是class，li标签也有class，这样就需要通过class来查找元素。

拿到目录列表后，遍历目录，一般会有a标签，a标签的href就是每章的地址。比如li标签里面放的a标签。

定位到a标签，拿到 href 属性的值，也就是章节地址，那我们就可以向这个地址发送请求了。

请求后解析响应数据，获取到文章正文内容。一般正文内容是放在p标签里，也有一些网站不用p标签，而是直接整章内容放在div里面，通过br标签换行和   缩进。

拿到文章内容后，就可以输出到文件了。

代码

前面学了管道和协程，学了就要用嘛，所以我这里也用了这两个。

定义一个管道，用来存放章节地址。协程的话，我只开了两个协程，一个是用来读取章节列表，并放入管道中；第二个是遍历管道，去发送请求，拿到章节内容。

因为我是把整本小说写入到一个txt文件中，不能开多个协程去发送请求，不然拿到的章节内容有可能是乱的，不是按顺序来的。如果你是将每个章节都单独写入到一个txt文件，那就无所谓顺序了。

package main

import (
	"bufio"
	"fmt"
	"github.com/PuerkitoBio/goquery"
	"net/http"
	"os"
	"sync"
)

var wg sync.WaitGroup
var chan1 = make(chan string, 10) // 存放章节地址

func main() {
    
    
	// 输出文件路径
	outPath := "C:\\Users\\Administrator\\Desktop\\1.txt"
	// 小说url地址
	var url = ""
	start(url, outPath)
}

func start(url string, outPath string) {
    
    
	var res *http.Response
	var err error
	// 输出到文件
	file, err := os.OpenFile(outPath, os.O_WRONLY|os.O_CREATE, 0666)
	if err != nil {
    
    
		fmt.Printf("文件打开失败：%v", err)
	}
	defer file.Close() // 按照defer的先进后出原则，这句代码会最后执行
	if res, err = http.Get(url); err != nil {
    
    
		fmt.Println(err)
		return
	}
	defer res.Body.Close() // 这句代码比 defer file.Close() 先执行
	doc, err := goquery.NewDocumentFromReader(res.Body)
	if err != nil {
    
    
		fmt.Println(err)
		return
	}
	writer := bufio.NewWriter(file) // NewWriter 带缓冲区的写入，写完之后要用flush刷新。
	wg.Add(2)                       // 下面开启了2个协程
	go getChapterList(doc)          // 开启一个协程，读取章节列表，并放入到管道中
	go getChapterContent(writer)    // 开启一个协程，读取 chan1管道中的href，去发送请求，拿到章节内容（这里不能开多个协程去请求，不然有可能不是按章节顺序去请求的）
	wg.Wait()                       // 等待协程执行完毕
	writer.Flush()
}

// 获取章节列表
func getChapterList(doc *goquery.Document) {
    
    
	// 获取章节列表
	doc.Find(".chapters").Each(func(i int, selection *goquery.Selection) {
    
    
		// 拿到 calss 为 .chapters 的li元素下的 a 标签
		attr := selection.First().Get(0).FirstChild.Attr
		href := attr[0].Val // 拿到a标签的href值
		chan1 <- href
	})
	close(chan1) // 将章节href全部写入完后，关闭管道
	wg.Done()    // 同时，主线程等待执行的协程数量-1
}

// 获取章节内容，并写入到文件中
func getChapterContent(writer *bufio.Writer) {
    
    
	var res *http.Response
	var err error
	for v := range chan1 {
    
    
		fmt.Println("正在下载：", v)
		if res, err = http.Get(v); err != nil {
    
    
			fmt.Println(err)
			return
		}
		doc, err := goquery.NewDocumentFromReader(res.Body)
		if err != nil {
    
    
			fmt.Println(err)
			return
		}
		var result string
		doc.Find("#content").Find("p").Each(func(i int, selection *goquery.Selection) {
    
    
			result += selection.Text() + "\r\n" // 每读一个p标签的内容，要加换行符，不然全部内容挤在一块了
		})
		writer.WriteString(result)
	}
	defer res.Body.Close() // 执行完这个函数后，关闭
	wg.Done()              // 同时，主线程等待执行的协程数量-1
}

怎么样，是不是感觉很简单？确实还挺简单的，要是能拿到html，那也就定位元素稍微要注意一点。其他的倒也没什么了。

ok，以上就是本篇文章的全部内容了，我们下篇文章见！

【Java转Go】Go爬虫篇一（goquery）

前言

goquery

实现

思路

代码

猜你喜欢