Python爬虫实战--CSDN博客爬虫(附赠浏览量小工具)

前言:
哈哈,继续高兴一下,通过自己的小手段,让博客访问量过万啦~怎么做到的呢?
大家想一想我们近来所学的爬虫知识,养兵千日用兵一时,在前面的学习,我们已经可以很轻松的爬去一些中小型和大型网站了,现在我们一起来思考一下,我们该怎么去爬虫CSDN网站,并顺便提高一下我们博客的浏览量呢?
问题分析:
我们主要的目标是爬去CSDN博客,也顺带提升一下我们的浏览量,那我们应该爬去CSDN全站呢?还是只需要爬去我们的个人博客呢?
答案很显然,在这里我们只需要爬去我们的个人博客,就可以达到相应的目的啦!
目标站点分析
目标URL:https://blog.csdn.net/m0_37903789(以我的个人主页为例)
明确内容:提升浏览量
在这里插入图片描述
显然,我们的访问量是与我们博客文章的浏览量相关联的,我们只需要提升我们的博客浏览量,访问量也就随之上涨了。
**Question:**怎么提升博客文章的浏览量呢?
知道答案的小童鞋,欢迎在下面写出你们的方法~
好了,我们的目标清楚了,就该大刀阔斧的做事情啦!

 def parse_index(self, html):
        article_urls = []
        soup = BeautifulSoup(html, 'lxml')
        divs = soup.select("div.article-item-box")
        for div in divs[1:]:
            temp_read_num = div.select("div > p:nth-of-type(2) > span")[0].get_text()
            read_num = int(temp_read_num.split(":")[-1])
            if read_num <= READ_NUM:
                article_url = div.select("h4 > a")[0].attrs['href']
                print(article_url, "加入请求队列", read_num)
                article_urls.append(article_url)
        print("本次总任务数:", TASK_NUM)
        while self.task_num <= TASK_NUM:
            # 任务编号
            print("Task ", self.task_num)
            # 更新代理
            self.proxy = self.get_proxy()
            # 更新User-Agent
            self.headers["User-Agent"] = self.ua.random
            # 设置异步IO接口,并分配相应的任务
            loop = asyncio.get_event_loop()
            tasks = [self.request_page(article_url) for article_url in article_urls]
            loop.run_until_complete(asyncio.wait(tasks))
            self.task_num += 1
            print("Task {0} is completed! There are {1} tasks left".format(self.task_num, TASK_NUM-self.task_num))

在这里,为了提高效率,采用异步IO的方式。
代码优化:为提升效率,大家都还可有用什么办法呢?欢迎大家一起讨论
源码地址:https://github.com/NO1117/csdn_browser
Python交流群:942913325 欢迎大家一起交流学习

猜你喜欢

转载自blog.csdn.net/m0_37903789/article/details/84329993