Python爬虫获取Csdn文章

其他 2019-05-10 10:40:58 阅读次数: 0

request获取html

安装:

pip install requests

使用：

import requests  
 HTTP请求：GET、POST、PUT、DELETE、HEAD、OPTIONS

get
res = requests.get(“https://www.baidu.com”)
post
res = requests.post(“https://www.baidu.com”);
put
res = requests.put(“https://www.baidu.com”);
delete
res = requests.delete(“https://www.baidu.com”);
head
res = requests.head(“https://www.baidu.com”) ;
options
res = requests.options(“https://www.baidu.com”)

#获取文章的html
from urllib import request
import random
import time
import lxml
import re
from bs4 import BeautifulSoup as bs
def Get_Target_ip():
 	 headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
     req = request.Request(r'#这里写你csdn主页的url', headers=headers)
     response = request.urlopen(req)
     html = response.read().decode('utf-8')
     soup = bs(html, 'lxml')
     hList = soup.find_all(name='h4', attrs={'class': ''})
     for h in hList:
        href = h.find(name='a').get('href')
        requestList.append(request.Request(href))
     return requestList
     
if __name__ == '__main__':
    requestList = Get_Target_ip()

BeautifulSoup 可以用来获取html中想要字段的文本

猜你喜欢

转载自blog.csdn.net/m0_38125278/article/details/89025333

Python爬虫获取Csdn文章

python爬虫CSDN文章抓取

Python爬虫入门实战1：获取CSDN个人博客文章目录及阅读量数据

Python爬虫入门实战2：获取CSDN个人博客文章基础信息

python简单爬虫实例，爬取CSDN文章

Python+爬虫+xlwings发现CSDN个人博客热门文章

python简单实现获取CSDN博客文章相关信息

python简单实现获取CSDN博客文章链接

Python爬虫入门实战3：获取CSDN个人博客信息

NodeJS简单爬虫获取指定用户CSDN博客所有文章链接

JAVA爬虫挖取CSDN博客文章(续)

Python爬虫之爬取CSDN人工智能栏目的文章

Python爬虫练习：爬取csdn极客的更新文章

【Python脚本】-爬虫得到CSDN博客的文章访问量和评论量

Python学习之爬虫06-CSDN博客文章爬取

PHP 获取CSDN博客的文章链接

Python3 获取CSDN博客文章的阅读数和评论量

Python3 获取CSDN博客所有文章标题及阅读数

python实例-通过cookie实现登录csdn获取自己微博的文章列表

获取CSDN文章内容并转换为markdown文本的python

python 爬虫爬取csdn

Python爬虫入门实战4：获取CSDN博文评论及添加新评论

[小工具][Python爬虫]一键完整备份你的Csdn博客文章（支持Markdown，HTML，文中图片）

nodejs爬虫--抓取CSDN某用户全部文章

Python + Selenium 自动发布文章（三）：CSDN

利用python scrapy抓取csdn的文章

python爬取csdn的文章内容

通过Python实现一个简单的爬虫——获取掘金网站文章列表

python3爬虫例子02（获取个人博客园的文章信息）

Python爬虫入门记录1.0：获取网站某板块首页面资讯文章标题

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)