强大高效而精简易用的Golang爬虫框架Colly,能否取代 Scrapy?(下)-33

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第34天,点击查看活动详情

Colly

之前也介绍了, Colly 是一个由 Golang 编写的爬虫框架。Colly 其实是 Collector 或 Collecting 的昵称。它精简易用而强大高效,正在逐渐成为 Scrapy 以外的爬虫框架选择。

咱们下面用一个例子来看一下它是如何做到的。(本文不是 Colly 的参考文档,仅希望通过一些例子来介绍 Colly 的优势和特性,要看所有 API 请参考 [Colly 官网文档]

在任意目录创建 baidu_spider.go 文件,并输入下列代码。

package main

import (
    "fmt"
    "github.com/crawlab-team/crawlab-go-sdk/entity"
    "github.com/gocolly/colly/v2"
)

func main() {
    // 生成 colly 采集器
    c := colly.NewCollector(
        colly.AllowedDomains("www.baidu.com"),
        colly.Async(true),
        colly.UserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36"),
    )

    // 抓取结果数据钩子函数
    c.OnHTML(".result.c-container", func(e *colly.HTMLElement) {
        // 抓取结果实例
        item := entity.Item{
            "title": e.ChildText("h3.t > a"),
            "url":   e.ChildAttr("h3.t > a", "href"),
        }
        
        // 打印抓取结果
        fmt.Println(item)
        
        // 取消注释调用 Crawlab Go SDK 存入数据库
        //_ = crawlab.SaveItem(item)
    })

    // 分页钩子函数
    c.OnHTML("a.n", func(e *colly.HTMLElement) {
        _ = c.Visit("https://www.baidu.com" + e.Attr("href"))
    })

    // 访问初始 URL
    startUrl := "https://www.baidu.com/s?wd=crawlab"
    _ = c.Visit(startUrl)

    // 等待爬虫结束
    c.Wait()
}

上面这个爬虫脚本,仅有 40 行代码。如果要用 Scrapy 来完成同样的功能,可能需要更多代码和文件目录。

可以从代码中看到,Colly 的爬虫程序编写非常简单,主要包含四个部分:

  1. 生成 Colly 采集器(Collector)c,并传入一些配置信息;
  2. OnHTML 钩子函数,包含 colly.HTMLElement 元素实例,这里主要是处理抓取结果的逻辑;
  3. c.Visit 访问函数,类似 Scrapy 中的 yield scrapy.Request
  4. c.Wait 等待函数,等待 Colly 爬虫程序执行完毕。

创建好之后,在所在目录执行 go run baidu_spider.go,即可运行百度搜索 “crawlab” 关键词爬虫。运行结果类似如下。

...
map[title:docker安装爬虫管理工具crawlab - kindvampire - 博客园 url:http://www.baidu.com/link?url=ueCY-MwzzGwaVqXw3Q18Fz8rEodI1P_mv60lRd8H0UZdFC4xVnVwWtsh-HpiwaOFI1zVjZFeVca]
map[title:crawlab python脚本关联mongodb结果集,实例_kai4024589..._CSDN博客 url:http://www.baidu.com/link?url=2wFQZaLoEk7OOTHrf1LOJcPiBAZEFETQYbjrqnrJi_Wfqdx-gPFIyjt2q3f7lTC-8A6SWz_l8zE6D8SBs1j0c4DOIwbdAw8i]
map[title:手把手教你如何用Crawlab构建技术文章聚合平台(一)_wei..._CSDN博客 url:http://www.baidu.com/link?url=nr9NOz2dqYFuaU5E1Zjz0OIfeeixSADNBNcHwj4dw9zypIky-9dVxd4RdzdS8-JMP7_X-LYpo0ydWmB8VNBmqq]
map[title:tikazyq-crawlab-master crawlab爬虫平台 适合scrapy分布式部署... url:http://www.baidu.com/link?url=VibsGu0BinYAUR_96pWCmcELObAXIPn7rKprlc9HR_607_cuEbxlcShUHqXjOoV6dnc4pND5F0K]
map[title:手把手教你如何用Crawlab构建技术文章聚合平台(一) - 个人文章... url:http://www.baidu.com/link?url=SG6dJcLc20xIuiesjRIXu2XzGSR0N674BEnUTveJhYe5mRc9SFtggk-NL0pmAAa]
map[title:爬虫管理平台Crawlab v0.3.0发布(Golang版本) - 个人文章... url:http://www.baidu.com/link?url=TItw3zWB4jHCoGmoQMm01E7oP2WlwfX7BRMsA9WDhaxHeQZZDi3I8bZh_kgTfpNx4fhtf42_]
map[title:Crawlab 单节点服务集群搭建部署简明教程 - 个人文章 - Segment... url:http://www.baidu.com/link?url=cuYEFA1zjqK1GiEmDCjwRMLDGFVKDsz6u4ljYjQol-VwDdr_cBS9Y3UlgChkyCuO7A_]
...

你可能会纳闷,Pipeline 和 Middleware 等 Scrapy 中定义的模块去哪里了?其实,你需要注意的是,这些模块并不是必须的,只是大佬们在开发爬虫过程中总结出来的一些实用的逻辑,抽象出来了而已。如果要在 Colly 中实现 Pipeline,直接在 c.OnHTML 钩子函数中的回调函数中调用一下后续处理函数即可,例如下面代码。

...
    c.OnHTML(".result.c-container", func(e *colly.HTMLElement) {
        item := entity.Item{
            "title": e.ChildText("h3.t > a"),
            "url":   e.ChildAttr("h3.t > a", "href"),
        }
        
        // 后续处理抓取结果
        PostProcess(item)
    })
...

从这个例子中,你可以看到 Colly 的 API 非常简单、清爽,而正是这种简单赋予了其极高的灵活性(Flexibility) ,让开发者可以在框架内做很多复杂的事情。

当然,Colly 也是有缺点的。从目前的开发进度来看,Colly 似乎还无法支持动态渲染内容的抓取,例如 Ajax 数据渲染,而这个在 Scrapy 中是有现成的不少解决方案的。

不过,我们有理由相信,随着今后不断迭代,Colly 会变得越来越全面和强大的。

与 Crawlab 集成

~/projects/tikazyq/colly-crawlers/baidu(master*) » crawlab upload
go.mod
go.sum
baidu_spider.go
uploaded successfully

然后在 Crawlab 的爬虫详情界面中输入执行命令 go run baidu_spider.go,点击 “运行” 开启爬虫。然后爬虫就会开始运行。

image.png

等待一段时间,爬虫运行结束。我们可以在日志中看到打印出来的结果。

image.png

并且,我们还可以在 “结果” 中查看抓取到的结果数据。这些结果是默认保存在 MongoDB 数据库里的。

image.png

因此,用 Crawlab 来管理 Colly 爬虫是非常方便的。

总结

本文从介绍知名爬虫框架 Scrapy 的优缺点开始,引入了基于 Golang 的高效而简单的爬虫框架 Colly。然后我们用一个百度搜索引擎抓取的例子,阐述了 Colly 的优势,也就是它精简而清爽的 API 以及静态语言的健壮性,还有很多其他实用特性。Colly 的出现,或许象征着爬虫开发者对简洁的追求,所谓 “大道至简”,就是用简单而纯粹的东西创造巨大的价值。爬虫技术的发展,是一个开发流程由复杂变简单、而程序功能由简单变复杂的过程。爬虫技术经历了 urllib/requests+BeautifulSoup 原始技术,到 Scrapy 的全能框架,再到如今的 Colly 的轻量级框架。而如今已经有不少所谓的 “低代码” 甚至 “无代码” 爬虫平台了,例如  Crawlab 可配置爬虫、八爪鱼/后羿采集器。而智能化的爬虫抓取也在逐渐变得流行。从这个角度来看,Colly 相对于 Scrapy 应该是进步了。不过现在要说 Colly 能否取代 Scrapy 还为时过早,因为 Scrapy 还有很多优秀的特性和生态是 Colly 暂时无法替代的。但是,Colly 目前正在高速发展,逐渐被开发者所了解,随着不断的反馈迭代,Colly 非常有潜力成为另一个爬虫界的必备技术

猜你喜欢

转载自juejin.im/post/7114443631343173645