爬取团队CSDN博客访问量
源码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date : 2018-06-07 09:28:48
# @Author : JackPI ([email protected])
# @Link : https://blog.csdn.net/meiqi0538
# @Version : $Id$
#使用requests库获取爬取的页面
import requests
#从bs4中导入BeautifulSoup,用于解析html页面
from bs4 import BeautifulSoup
#导入时间,调用sleep方法,避免频繁爬取信息被频闭
import time
#初始化连接对象、执行对象
import os
from lxml import etree
#设置访问的头,伪装浏览器
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/58.0'
}
def get_info(url,author):
print(url,author)
#使用requests获取,并设置headers参数
wb_data=requests.get(url, params=headers)
html=etree.HTML(wb_data.text)
totals=html.xpath("//*[@id='asideProfile']/div[3]/dl[2]/dd/@title")
with open("csdn_result.txt","a") as f:
temp=author+"<a href='{0}' target='blank'>CSDN博客</a>访问量:".format(url)+totals[0]+"<br>\n"
f.write(temp)
f.close()
def main():
#读取团队人员信息
with open("csdn_full.txt","r") as f:
url_list=f.readlines()
f.close()
#重新写入数据到txt文档中
try:
os.remove("csdn_result.txt")
except:
print("文件不存在")
for i in range(0,len(url_list)):
url=url_list[i].strip().split("*")[1]+'/article/list/1'
get_info(url,url_list[i].strip().split("*")[0])
#如果直接使用本文件就执行
if __name__=='__main__':
main()
程序说明
1.基本操作
进入当前文件的dos,输入python csdn.py 按Enter 即可,如图:
爬取的结果在:csdn_result.txt文件中,如图:
2.爬取成员管理
爬去成员的信息在csdn_full.txt文件中,如图:
删除对应行的成员,就不再进行爬去,添加人员的格式是:人名**csdn链接