Python爬虫-爬取斗鱼网页selenium+bs - 代码天地

Python爬虫-爬取斗鱼网页selenium+bs

其他 2018-12-08 19:07:58 阅读次数: 0

爬取斗鱼网页（selenium+chromedriver得到网页，用Beasutiful Soup提取信息）

=============================

=================================

=======================================

#self.driver.page_source 得到页面源码用 xml解析
soup = BeautifulSoup(self.driver.page_source, 'xml')

结果示例：

================================

 1 ''''
 2 任务：
 3 爬去斗鱼直播内容
 4 https://www.douyu.com/directory/all
 5 思路：
 6 1. 利用selenium得到页面内容
 7 2. 利用xpath或者bs等在页面中进行信息提取
 8 '''
 9 
10 from selenium import webdriver
11 from bs4 import BeautifulSoup
12 
13 
14 class Douyu():
15     #初始化方法
16     def setUp(self):
17         self.driver = webdriver.Chrome()
18         self.url = 'https://www.douyu.com/directory/all'
19 
20 
21     def douyu(self):
22         self.driver.get(self.url)
23 
24         while True:
25             soup = BeautifulSoup(self.driver.page_source, 'xml')
26 
27             # 返回当前页面所有放假标题列表和观众人数
28             titles = soup.find_all('h3', {'class':'ellipsis'})
29             nums = soup.find_all('span', {'class':'dy-num fr'})
30 
31             for title, num in zip(titles, nums):
32                 print("房间{0} 总共观赏人数{1}".format(title.get_text().strip(), num.get_text().strip()))
33 
34     def destr(self):
35         self.driver.quit()
36 
37 if __name__ == '__main__':
38     douyu = Douyu()
39     douyu.setUp()
40     douyu.douyu()
41     douyu.destr()

猜你喜欢

转载自www.cnblogs.com/xuxaut-558/p/10088617.html

Python爬虫-爬取斗鱼网页selenium+bs

Python3-selenium\phantomjs\bs4爬取斗鱼页面

Python——selenium爬取斗鱼房间信息

python爬虫爬取斗鱼直播数据

Python爬虫：简易的爬取斗鱼弹幕

Python爬虫：selenium挂shadowsocks代理爬取网页内容

用Python爬取斗鱼网站的一个小案例

爬虫--爬取网页图片--bs4

Python 爬虫爬取网页

利用python爬虫爬取斗鱼图片(简单详细)

python爬取斗鱼弹幕

使用selenium爬取斗鱼直播数据

selenium爬取斗鱼的房间信息

Python爬虫学习（二）使用Selenium和PyQuery爬取网页

python爬虫+网页点击事件+selenium模拟浏览器，爬取选股宝内容

针对源代码和检查元素不一致的网页爬虫——利用Selenium、PhantomJS、bs4爬取12306的列车途径站信息

python爬虫爬取淘宝网页

python爬虫爬取京东网页

Python爬虫爬取网页的例子

Python——网络爬虫（爬取网页图片）

python 爬虫（爬取网页的img并下载）

python爬虫——爬取网页的中文

Python爬虫入门——爬取网页图片

python爬虫爬取网页图片

Python爬虫-1——爬取网页

python爬虫：批量爬取网页图片

爬虫-----selenium模块自动爬取网页资源

bs4爬取网页基础

Python3使用selenium爬取斗鱼直播平台数据

Python3-爬虫~selenium\phantomjs\爬取XX网页电影过程中向下滚动网页问题

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)