爬取团队CSDN博客访问量

其他 2018-06-23 05:14:17 阅读次数: 2

爬取团队CSDN博客访问量

源码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2018-06-07 09:28:48
# @Author  : JackPI ([email protected])
# @Link    : https://blog.csdn.net/meiqi0538
# @Version : $Id$

#使用requests库获取爬取的页面  
import requests
#从bs4中导入BeautifulSoup，用于解析html页面  
from bs4 import BeautifulSoup 
#导入时间，调用sleep方法，避免频繁爬取信息被频闭
import time 
#初始化连接对象、执行对象  
import os
from lxml import etree
#设置访问的头，伪装浏览器
headers={  
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/58.0'  
        }  

def get_info(url,author):
    print(url,author)
    #使用requests获取,并设置headers参数  
    wb_data=requests.get(url, params=headers)   
    html=etree.HTML(wb_data.text)
    totals=html.xpath("//*[@id='asideProfile']/div[3]/dl[2]/dd/@title")

    with open("csdn_result.txt","a") as f:
        temp=author+"<a href='{0}' target='blank'>CSDN博客</a>访问量：".format(url)+totals[0]+"<br>\n"
        f.write(temp)
        f.close()
def main():
    #读取团队人员信息
    with open("csdn_full.txt","r") as f:
        url_list=f.readlines()
        f.close()
    #重新写入数据到txt文档中
    try:
        os.remove("csdn_result.txt")
    except:
        print("文件不存在")
    for i in range(0,len(url_list)):
        url=url_list[i].strip().split("*")[1]+'/article/list/1'
        get_info(url,url_list[i].strip().split("*")[0])             
#如果直接使用本文件就执行  
if __name__=='__main__':  
    main()

程序说明

1.基本操作

进入当前文件的dos，输入python csdn.py 按Enter 即可，如图：

这里写图片描述

爬取的结果在：csdn_result.txt文件中，如图：

这里写图片描述

2.爬取成员管理

爬去成员的信息在csdn_full.txt文件中，如图：

这里写图片描述

删除对应行的成员，就不再进行爬去，添加人员的格式是：人名**csdn链接

猜你喜欢

转载自blog.csdn.net/meiqi0538/article/details/80604445

爬取团队CSDN博客访问量

使用python爬取csdn博客访问量

python爬虫设计刷博客访问量（刷访问量，赞，爬取图片）

CSDN博客访问量问题

Python爬虫小实践：爬取任意CSDN博客所有文章的文字内容（或可改写为保存其他的元素），间接增加博客访问量

python2.7爬虫脚本实现刷取CSDN博客访问量。

python 爬取博客访问量并且统计数据成图

Python 爬虫：requests + BeautifulSoup4 爬取 CSDN 个人博客主页信息（博主信息、文章标题、文章链接）爬取博主每篇文章的信息（访问、收藏）合法刷访问量？

Python自动刷取csdn文章访问量

统计csdn博客的访问量+评论数

csdn博客访问量突破这个数，纪念下

查看 CSDN 博客的详细访问量和排名

CSDN个人博客访问量突破300万

CSDN和博客园访问量的数据对比

node.js 刷csdn博客访问量

csdn上刷博客访问量（测试用）

Python3刷csdn博客访问量

python 爬虫爬去自己博客的访问量

csdn rush访问量~

设置博客访问量

【Python脚本】-爬虫得到CSDN博客的文章访问量和评论量

用爬虫来对csdn个人博客进行访问，刷访问量

csdn访问量终于破千

python实现增加csdn访问量

通过爬虫增加CSDN访问量

利用python刷CSDN访问量

csdn如何增加访问量

如何快速提高csdn访问量

使用python统计csdn博客一段时间内的访问量

管理员说：CSDN博客，一天访问量1000就很好了

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)