python爬取个人csdn博客链接和标题 - 代码天地

python爬取个人csdn博客链接和标题

其他 2021-10-08 17:44:52 阅读次数: 0

命令行下运行以下python即可，博客地址可以换成自己的
boke.python:

# coding:utf-8
from bs4 import BeautifulSoup
import requests
import sys

# 设置http请求头伪装成浏览器
send_headers = {
    
    
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36",
    "Connection": "keep-alive",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    "Accept-Language": "zh-CN,zh;q=0.8"}

# requests获取博客页面html文本
num = [1, 2, 3, 4]
artlist = ""
for i in num:
    url = "https://blog.csdn.net/qq_41160739/article/list/"+str(i)
    r = requests.get(url, headers=send_headers)
    r.encoding = "utf-8"
    html=r.text

    # 将获取到的html送入bs4进行解析
    soup = BeautifulSoup(html, "html.parser")   # 获得解析后对象
    mainBox = soup.find("div", id="mainBox")    # 找到id是mainBox的div
    # 找到这个div中所有 class 是 article-item-box csdn-tracking-statistics 的div
    artlist =mainBox.find_all("div", attrs={
    
    "class":"article-item-box csdn-tracking-statistics"})

# 遍历每个div 输出内容 以html形式输出
    for div in artlist:
        a = div.h4.a
        print("<a href='" + a["href"] + "'>" + a.text[14:-9] + "</a><br><br>")

点击生成html页面：



#! /bin/bash

echo "<!DOCTYPE html><html><head><title>主页</title><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /></head><body><h1>个人学习云笔记</h1><h2>这里是我个人的云笔记</h2><a href="https://blog.csdn.net/qq_41160739">我的CSDN主页</a><br><hr><br>" > ./index.html

python  boke.py>> index.html

echo "<br><hr><br><a href="http://www.beian.gov.cn" target="_blank">粤ICP备20048898号-1</a></body></html>" >> ./index.html

猜你喜欢

转载自blog.csdn.net/qq_41160739/article/details/119752013

python爬取个人csdn博客链接和标题

如何爬取CSDN博客中分栏的所有文章的标题和链接

python爬取CSDN所有博客标题

Python 爬虫：requests + BeautifulSoup4 爬取 CSDN 个人博客主页信息（博主信息、文章标题、文章链接）爬取博主每篇文章的信息（访问、收藏）合法刷访问量？

python爬取博客圆首页文章链接+标题

Python爬取CSDN，获取个人博客信息

[Python]爬取CSDN论坛标题 2020.2.8

爬取网站的子链接和标题

Python网络爬虫与信息提取（6）—— 爬取csdn个人博客数据信息

实现爬取csdn个人博客并导出数据

Python进阶(十八)-Python3爬虫小试牛刀之爬取CSDN博客个人信息

多线程爬取新闻标题和链接

Jsoup爬取CSDN博客

使用python爬取csdn博客访问量

python 使用BeautifulSoup爬取CSDN博客(1)

python爬取CSDN博客文章并制作成PDF文件

通过urllib.request爬取CSDN原创博客标题方法封装

【nodeJS+ES6】爬取csdn个人主页文章链接并进行访问

爬取并执行本篇CSDN博客的代码

使用selenium爬取csdn博客

requests + pyquery 爬取 csdn 博客信息

requests + pyquery 爬取 csdn 博客信息

Scrapy爬取CSDN博客列表

python 爬虫爬取csdn

从头学习爬虫（二十九）实战篇----WebMagic爬CSDN博客 WebMagic入门实战下CSDN，20行代码实现爬取标题

【python爬虫自学笔记】-----爬取简书网站首页文章标题与链接

python爬虫，使用BeautifulSoup模块爬取人民网新链接，标题，时间

爬取博主的所有文章的标题、链接和内容

python学习，新浪新闻的爬取和CSDN博文爬取

[Python] 爬取博客园博主标题网络爬虫 2020.2.8

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)