golang并发版的爬虫 - 代码天地

golang并发版的爬虫

其他 2020-03-28 11:07:02 阅读次数: 0

package main

import (
	"fmt"
	"io"
	"net/http"
	"os"
	"strconv"
)

var(
	spiderchan = make(chan bool)
)


func main() {
	//爬取一个网页并保存在文件中
	var start,end int
	fmt.Println("请输入要爬取的起始页(>=1)")
	fmt.Scan(&start)
	fmt.Println("请输入要爬取的起始页(>=start)")
	fmt.Scan(&end)
	fmt.Println("开始爬取")
	//写一个函数爬取网页
	scapy(start,end)
	return
}

func spiderhtml(i int,pagechan chan int){
	url:= "http://tieba.baidu.com/f?kw=%E9%87%8D%E5%BA%86%E5%A4%A7%E5%AD%A6&ie=utf-8&pn="+strconv.Itoa((i-1)*50)
	resp,err:= http.Get(url)
	errprint("http get err",err)

	defer resp.Body.Close()

	f,err2:=os.Create("第"+strconv.Itoa(i)+"个网页.html")
	errprint("os create err",err2)
	//读取文件
	buff := make([]byte,4096)
	for{
		n,err:=resp.Body.Read(buff)
		errprint("resp body err",err)
		if n == 0{
			break
		}
		//写出到文件
		f.Write(buff[:n])
	}
	f.Close()
	pagechan<-i
}



func scapy(start int, end int) {
	pagechan := make(chan int)
	fmt.Printf("正在爬取第%d页到%d页\n",start,end)
	for i:=start;i<=end ;i++  {
		go spiderhtml(i,pagechan)
	}

	for i:=start; i<=end;i++  {
		fmt.Printf("第%d个页面爬取完成\n",<-pagechan)
	}
}

func errprint(s string, e error) {
	if e!=nil&&e!=io.EOF{
		fmt.Println(s,e)
		return
	}
}

站内首发文章

发布了74 篇原创文章 · 获赞 2 · 访问量 6469

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_42067668/article/details/103531876

golang版并发爬虫

golang并发版的爬虫

跟着google工程师学Go语言(二十五)：Golang并发版爬虫

go爬虫设计(并发版)

golang------------单任务版爬虫实现

Golang使用通道的同步等待组WaitGroup开发并发爬虫

golang 并发

Golang的并发

golang并发

Golang -- 并发

golang 爬虫

golang爬虫

Golang搭建并行版爬虫信息采集框架！

go-爬虫-百度贴吧（并发版）

爬虫并发

并发爬虫

golang实现并发爬虫三(用队列调度器实现）

Golang - 并发编程 Golang - 并发编程

Golang并发（一）- 并发的介绍

golang WaitGroup 并发使用

Golang CSP并发模型

Golang并发（五） - Select

golang并发编程

golang goroutine 并发递增

golang 如何并发

golang并发模式pool

golang并发模式work

golang并发模式runner

golang 并发二（调度）

Golang并发（二） - Goroutine

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)