colly 分布式抓取 ##5 - 代码天地

colly 分布式抓取 ##5

其他 2019-09-23 10:51:33 阅读次数: 0

分布式抓取

根据抓取任务的需求，可以以不同的方式实现分布式抓取。大多数情况下，扩展网络通信层就足够了，使用代理和Colly的代理切换器可以很容易地实现这一点

代理转换器

当HTTP请求分布在多个代理之间时，使用代理切换器进行抓取仍然是集中的。Colly通过其' SetProxyFunc()成员支持代理切换。任何自定义函数都可以通过func(*http.Request) (*url.URL, error)。

注意：SSH服务器可以用作带有-D标志的socks5代理。

Colly有一个内置的代理切换器，它可以根据每个请求旋转代理列表。

使用

package main

import (
	"github.com/gocolly/colly"
	"github.com/gocolly/colly/proxy"
)

func main() {
	c := colly.NewCollector()

	if p, err := proxy.RoundRobinProxySwitcher(
		"socks5://127.0.0.1:1337",
		"socks5://127.0.0.1:1338",
		"http://127.0.0.1:8080",
	); err == nil {
		c.SetProxyFunc(p)
	}
	// ...
}

实现自定义代理切换器:

var proxies []*url.URL = []*url.URL{
	&url.URL{Host: "127.0.0.1:8080"},
	&url.URL{Host: "127.0.0.1:8081"},
}

func randomProxySwitcher(_ *http.Request) (*url.URL, error) {
	return proxies[random.Intn(len(proxies))], nil
}

// ...
c.SetProxyFunc(randomProxySwitcher)

　

分布式抓取

要管理独立的和分布式的scraper，您所能做的最好的事情就是将scraper包装到服务器中。服务器可以是任何类型的服务，如HTTP、TCP服务器或谷歌应用程序引擎。使用自定义存储实现集中持久的cookie和访问url处理。

注意：Colly有内置的谷歌应用程序引擎支持。如果您在App Engine标准环境中使用Colly，不要忘记调用Collector.Appengine(*http.Request)。

这里可以找到一个示例实现。

分布式存储

默认情况下，已访问的URL和cookie数据存储在内存中。这是方便的短期抓取工作，但它可能是一个严重的限制，当处理大规模或长期运行的爬行作业。

Colly能够用实现Colly /storage的任何存储后端替换默认的内存存储。存储接口。查看现有的存储。

猜你喜欢

转载自www.cnblogs.com/liujie-php/p/11571048.html

colly 分布式抓取 ##5

Scrapy+redis+mongodb分布式爬虫抓取小说《冰与火之歌1-5》

【分布式-5】dubbo

colly Crawler 配置 ##9

分布式面向服务框架(5)

分布式-信息方式-JMS(5)

HBase(5)：分布式hbase部署

分布式专题（5）- Dubbo

5.分布式爬虫

5、分布式消息队列Kafka

SpringCloud（5） - Config分布式配置

5：Jenkins分布式与权限等实践

colly第一课 colly的安装和使用

Colly源码解析——主体流程

搞懂分布式技术5：Zookeeper的Watcher机制与分布式锁实现

【分布式基础】5.分布式通信-rmi框架

分布式ID详解(5种分布式ID生成方案)

分布式操作系统 - 5.分布式命名管理

ElasticSearch6.2.4(5)——ES基础分布式架构

5个常用的Java分布式缓存框架

5个强大的Java分布式缓存框架推荐

谈谈分布式事务（Distributed Transaction）[共5篇]

Spring Cloud (5) 分布式配置中心

分布式系统原理（5）--Quorum机制

深度探索区块链/分布式账本存储(5)

ElasticSearch 5学习——分布式集群学习分享1

ElasticSearch 5学习——分布式集群学习分享2

登录功能:md5加密与分布式Session

9月5日分布式缓存周三

分布式爬虫(5)：微博数据爬取

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)