Python-selenium翻页爬取csdn博客保存数据入mysql - 代码天地

Python-selenium翻页爬取csdn博客保存数据入mysql

其他 2019-02-27 13:01:26 阅读次数: 0

csdn博客部分截图

博客链接：https://blog.csdn.net/kevinelstri/article/list/1?

此次目的是要爬取文章标题，发表文章时间以及阅读数量

1.浏览器打开网址，选择一个右击标题，审查元素。如图

通过观察可以发现每篇文章有一个div，格式大多相同，就可以写爬取代码了

2.爬取文章标题，时间，阅读数的网页定位代码：

count=driver.find_elements_by_xpath("//div[@class='article-list']/div[position()>1]/div/p[3]/span/span")
time=driver.find_elements_by_xpath("//div[@class='article-list']/div[position()>1]/div/p[1]/span")
content=driver.find_elements_by_xpath("//div[@class='article-list']/div[position()>1]/h4/a")

三条代码都是通过xpath定位元素

3.取出爬取元素的值，并且打包成列表(方便数据的对应存储)

time_list=[]
content_list=[]
count_list=[]
for t in time:
time_list.append(t.text)
for c in content:
content_list.append(c.text)
for c in count:
count_list.append(c.text)
end1=list(zip(content_list,time_list,count_list))#将爬取的标题和时间压缩成列表

4.将爬取的数据存入数据库（原本已经在数据库test下建立了表格climb_boke）,

这里选择写了个自定义函数

def Mysql(data):
conn=MySQLdb.connect(host='localhost',user='root',passwd='cmy1234',port=3306)
cur=conn.cursor()
conn.set_character_set('utf8')#设置编码
cur.execute('set names utf8;')
cur.execute('set character set utf8;')
cur.execute('set character_set_connection=utf8;')
cur.execute('use test')
sql='''insert into climb_boke(title,time,count) values(%s,%s,%s)'''
for i in range(0,len(data)):
cur.execute(sql,list(data[i]))#插入的数据必须是列表形势
print("插入数据成功")
cur.execute('select* from climb_boke')
for data in cur.fetchall():
print(data)
conn.commit()
cur.close()
conn.close()

整体代码：

这里翻页我只取了两页，可以做修改

while k<=2:
url='https://blog.csdn.net/kevinelstri/article/list/'+str(k)+'?'

最终Navicat查看的成果

猜你喜欢

转载自www.cnblogs.com/chenminyu/p/10442918.html

Python-selenium翻页爬取csdn博客保存数据入mysql

使用selenium爬取csdn博客

python-selenium自动爬取京东手机端全部类别数据----“从祖爬到孙”

Python爬取数据：翻页操作

利用selenium实现自动翻页爬取某鱼数据

利用Scrapy框架爬取csdn博客数据，并保存到excel

python-selenium爬取动态HTML节点需要注意的地方

python-selenium模块爬取动态网址实例---------【下载漫画码上面的漫画】

python-selenium爬取51job获取求职信息

python-selenium爬取摩点客户购买信息（前端分析+爬虫代码）

python爬取数据保存为MySQl格式

Python爬虫实战（一）：翻页爬取数据存入SqlServer

Python爬虫实战：Selenium爬取微博头条信息保存到Mysql

python从入门到放弃篇33（selenium库）实现翻页爬取豆瓣小说，保存为xlsx文件到本地

Jsoup爬取CSDN博客

python爬取CSDN文章保存至本地

Python网络爬虫与信息提取（6）—— 爬取csdn个人博客数据信息

Python ---- 爬虫练习爬取 CSDN 2020 博客之星投票数据

Python Scrapy爬取并保存到Mysql

python爬取CSDN所有博客标题

Python爬取CSDN，获取个人博客信息

使用python爬取csdn博客访问量

python 使用BeautifulSoup爬取CSDN博客(1)

python爬取CSDN博客文章并制作成PDF文件

python爬取个人csdn博客链接和标题

实现爬取csdn个人博客并导出数据

python selenium 爬取领英的数据

python-selenium

python-selenium滑动

使用selenium登录网站并爬取数据保存到excel

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)