Python爬虫实战--CSDN博客爬虫（附赠浏览量小工具）

前言：
哈哈，继续高兴一下，通过自己的小手段，让博客访问量过万啦~怎么做到的呢？
大家想一想我们近来所学的爬虫知识，养兵千日用兵一时，在前面的学习，我们已经可以很轻松的爬去一些中小型和大型网站了，现在我们一起来思考一下，我们该怎么去爬虫CSDN网站，并顺便提高一下我们博客的浏览量呢？
问题分析：
我们主要的目标是爬去CSDN博客，也顺带提升一下我们的浏览量，那我们应该爬去CSDN全站呢？还是只需要爬去我们的个人博客呢？
答案很显然，在这里我们只需要爬去我们的个人博客，就可以达到相应的目的啦！
目标站点分析
目标URL：https://blog.csdn.net/m0_37903789（以我的个人主页为例）
明确内容：提升浏览量
在这里插入图片描述
显然，我们的访问量是与我们博客文章的浏览量相关联的，我们只需要提升我们的博客浏览量，访问量也就随之上涨了。
**Question：**怎么提升博客文章的浏览量呢？
知道答案的小童鞋，欢迎在下面写出你们的方法~
好了，我们的目标清楚了，就该大刀阔斧的做事情啦！

 def parse_index(self, html):
        article_urls = []
        soup = BeautifulSoup(html, 'lxml')
        divs = soup.select("div.article-item-box")
        for div in divs[1:]:
            temp_read_num = div.select("div > p:nth-of-type(2) > span")[0].get_text()
            read_num = int(temp_read_num.split("：")[-1])
            if read_num <= READ_NUM:
                article_url = div.select("h4 > a")[0].attrs['href']
                print(article_url, "加入请求队列", read_num)
                article_urls.append(article_url)
        print("本次总任务数：", TASK_NUM)
        while self.task_num <= TASK_NUM:
            # 任务编号
            print("Task ", self.task_num)
            # 更新代理
            self.proxy = self.get_proxy()
            # 更新User-Agent
            self.headers["User-Agent"] = self.ua.random
            # 设置异步IO接口，并分配相应的任务
            loop = asyncio.get_event_loop()
            tasks = [self.request_page(article_url) for article_url in article_urls]
            loop.run_until_complete(asyncio.wait(tasks))
            self.task_num += 1
            print("Task {0} is completed! There are {1} tasks left".format(self.task_num, TASK_NUM-self.task_num))

在这里，为了提高效率，采用异步IO的方式。
代码优化：为提升效率，大家都还可有用什么办法呢？欢迎大家一起讨论
源码地址：https://github.com/NO1117/csdn_browser
Python交流群：942913325 欢迎大家一起交流学习

Python爬虫实战--CSDN博客爬虫（附赠浏览量小工具）

猜你喜欢