爬取团队CSDN博客访问量

爬取团队CSDN博客访问量

源码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2018-06-07 09:28:48
# @Author  : JackPI ([email protected])
# @Link    : https://blog.csdn.net/meiqi0538
# @Version : $Id$

#使用requests库获取爬取的页面  
import requests
#从bs4中导入BeautifulSoup,用于解析html页面  
from bs4 import BeautifulSoup 
#导入时间,调用sleep方法,避免频繁爬取信息被频闭
import time 
#初始化连接对象、执行对象  
import os
from lxml import etree
#设置访问的头,伪装浏览器
headers={  
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/58.0'  
        }  

def get_info(url,author):
    print(url,author)
    #使用requests获取,并设置headers参数  
    wb_data=requests.get(url, params=headers)   
    html=etree.HTML(wb_data.text)
    totals=html.xpath("//*[@id='asideProfile']/div[3]/dl[2]/dd/@title")

    with open("csdn_result.txt","a") as f:
        temp=author+"<a href='{0}' target='blank'>CSDN博客</a>访问量:".format(url)+totals[0]+"<br>\n"
        f.write(temp)
        f.close()
def main():
    #读取团队人员信息
    with open("csdn_full.txt","r") as f:
        url_list=f.readlines()
        f.close()
    #重新写入数据到txt文档中
    try:
        os.remove("csdn_result.txt")
    except:
        print("文件不存在")
    for i in range(0,len(url_list)):
        url=url_list[i].strip().split("*")[1]+'/article/list/1'
        get_info(url,url_list[i].strip().split("*")[0])             
#如果直接使用本文件就执行  
if __name__=='__main__':  
    main()

程序说明

1.基本操作

进入当前文件的dos,输入python csdn.py 按Enter 即可,如图:

这里写图片描述

爬取的结果在:csdn_result.txt文件中,如图:

这里写图片描述

2.爬取成员管理

爬去成员的信息在csdn_full.txt文件中,如图:

这里写图片描述

删除对应行的成员,就不再进行爬去,添加人员的格式是:人名**csdn链接

猜你喜欢

转载自blog.csdn.net/meiqi0538/article/details/80604445
今日推荐