go语言,爬取百度贴吧指定贴所有内容

初级爬虫,为了学习一下常用的goquery。

待补吧。算是督促下进度。

1.解析操作的学习

2.如果遍历dom树如何避开陷阱

3.分离 贴子中楼层,楼中楼。贴子有唯一ID 已经体现在url中。 楼和楼中楼应该也有唯一ID。

4.回复中有图片的情况,下载or跳过。

5.作为解析器,如何融入项目

func GetUrlDocAndRetNxtUrl(){
	file := "urltxt"
	fout,err := os.Create(file)
	defer fout.Close()
	if err!=nil{
		fmt.Println(file,err)
		return
	}
	doc,err := goquery.NewDocument("https://tieba.baidu.com/p/5976430861")
	//创建了html的dom对象。
	if err!=nil{
		log.Fatal(err)
	}
	//通过find a标签中的下一页 。 
        //或者直接构造 oldurl?pn=pagenum 即可 。
return nxturl; }

 还没有测试。。

猜你喜欢

转载自www.cnblogs.com/Geek-xiyang/p/10124749.html