爆料！干货！Python大咖教你如何使用Selenium抓取斗鱼平台数据 - 代码天地

爆料！干货！Python大咖教你如何使用Selenium抓取斗鱼平台数据

其他 2019-02-22 11:11:23 阅读次数: 0

程序说明：爬取斗鱼上的直播间封面，房间名字，房间分类

在这里插入图片描述

1>需要用到Selenium

Selenium的安装

pip install selenium

Selenium模块需要调用浏览器，需要配置selenium的浏览器驱动

Chrome（谷歌）

下载对应版本的chromedriver.exe，并且放到chrome.exe的目录当中

下载地址私聊获取这是淘宝镜像地址，可以根据自己的电脑版本进行下载

selenium之 chromedriver与chrome版本映射表：大家可以自行百度

准备工作差不多就可以了

2>接下来就是代码部分

from selenium import webdriver
import time
class DouyuSpider(object):
 def __init__(self):
 self.start_url = "https://www.douyu.com/directory/all"
 self.driver = webdriver.Chrome()
 def get_content_list(self):
 # live-list-contentbox
 list_li = self.driver.find_elements_by_xpath('//ul[@id="live-list-contentbox"]/li')
 content_list = []
 for li in list_li:
 item = {}
 item['room_img'] = li.find_element_by_xpath('.//span[@class="imgbox"]/img').get_attribute('src')
 item['room_name'] = li.find_element_by_xpath('./a').get_attribute('title')
 item['room_cate'] = li.find_element_by_xpath('.//span[@class="tag ellipsis"]').text
 content_list.append(item)
 print(content_list)
 next_url = self.driver.find_elements_by_xpath("//a[@class='shark-pager-next']")
 next_url = next_url[0] if len(next_url) > 0 else None
 return content_list,next_url
 def save_content_list(self,content_list):
 pass
 def run(self):
 # 1 start_url
 # 2 发送请求 获取响应
 self.driver.get(self.start_url)
 # 3 提取数据 提取下一页
 content_list,next_url = self.get_content_list()
 # 4 保持数据
 self.save_content_list(content_list)
 # 5 点击下一页元素，循环
 while next_url is not None:
 next_url.click()
 time.sleep(2)
 content_list, next_url = self.get_content_list()
 self.save_content_list(content_list)
if __name__ == '__main__':
 douyu = DouyuSpider()
 douyu.run()

猜你喜欢

转载自blog.csdn.net/weixin_44469638/article/details/86595803

爆料！干货！Python大咖教你如何使用Selenium抓取斗鱼平台数据

Python3使用selenium爬取斗鱼直播平台数据

Python巨咖教你如何实现用户的历史记录功能，干货，满满的

大咖驾到！5A学霸教你如何使用鱼骨图解决项目难题

Python爬虫技术干货，教你如何实现抓取京东店铺信息及下载图片

Python 之selenium+phantomJS斗鱼抓取案例

Python爬虫使用selenium抓取网站数据

python网页数据抓取_手把手教你使用Python抓取并存储网页数据！

使用selenium爬取斗鱼直播数据

Python干货：教你如何利用python抓取微博评论，利用python知道更多微博大V有趣搞笑评论！

手把手教你使用Python抓取QQ音乐数据！

手把手教你使用Python抓取QQ音乐数据（第四弹）

手把手教你使用Python抓取QQ音乐数据（第二弹）

手把手教你使用Python抓取QQ音乐数据（第三弹）

教你如何系统的自学Python - 纯干货！

干货推荐！教你快速使用数据可视化BI软件创建高校数据展示大屏

干货沙龙|4位大咖手把手教你缓存架构、分布式消息、聚合支付架构设计（附全部PPT）...

使用selenium爬虫抓取数据

手把手教你使用Python抓取QQ音乐数据（第一弹）

干货！手把手教你快速使用数据可视化BI软件创建旅游数据监测大屏

python如何将聚宽平台数据倒到本地文件进行量化研究

Python实现抓取斗鱼实时弹幕

Echarts 的使用？如何接收后台数据

2019小白如何学习大数据，资深技术大咖带你轻松入门并掌握大数据！

干货，使用java代码教你如何局域网内ARP攻击

Linux 无界面使用 Selenium 抓取数据

python岂止于强大，22行代码实现资源大咖，抓取整站最新资源！

python岂止于强大, 22行代码实现资源大咖, 抓取整站最新资源!

从业十余年的资深数据大咖告诉你，该如何做好数字时代的大客户管理？

web前端开发需要学习那些知识？前端大咖教你怎么学web前端

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)