python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs - 代码天地

python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs

其他 2020-01-10 22:19:00 阅读次数: 0

在上一篇文章（http://blog.csdn.net/Trisyp/article/details/78732630）中我们利用模拟打开浏览器的方法模拟点击网页中的加载更多来实现动态加载网页并获取网页内容。但是很不幸，有些网站的这部分内容是使用js动态加载的，我们用普通方法获取的时候，发现有些地方是空白的，所以没法获取Xpath，所以上篇文章方法也就失效了。
可能有些童鞋开始会认为是不是代码出错了，然后打印全部网页内容，发现想要的那部分内容确实没有，再用浏览器去访问网页，右键查看网页源代码发现这部分代码确实没有。我就是那个傻童鞋！！！
所以本篇文章就是希望能够解决这种问题，去抓取js动态加载的网页。首先想到的肯定是使用selenium来调用浏览器进行抓取，但是第一句就说明了，Xpath没法获取，所以就没法通过点击页面元素来实现了。这个时候看到了这篇文章（http://blog.csdn.net/yxwb1253587469/article/details/52233562），使用selenium+phantomjs来进行无界面抓取。
具体步骤如下：
1. 下载Phantomjs，下载地址：http://phantomjs.org/
2. 下完之后直接解压就OK了，然后selenium的安装用pip就行了
3. 写代码执行就完成了

完整代码如下：

import requests
from bs4 import BeautifulSoup
import re
from selenium import webdriver
import time

def getHTMLText(url):
        driver = webdriver.PhantomJS(executable_path='D:\\phantomjs-2.1.1-windows\\bin\\phantomjs')  # phantomjs的绝对路径
        time.sleep(2)
        driver.get(url)  # 获取网页
        time.sleep(2)
        return driver.page_source

def fillUnivlist(html):
        soup = BeautifulSoup(html, 'html.parser')  # 用HTML解析网址
        tag = soup.find_all('div', attrs={'class': 'listInfo'})
        print(str(tag[0]))
        return 0

def main():
    url = 'http://sports.qq.com/articleList/rolls/' #要访问的网址
    html = getHTMLText(url) #获取HTML
    fillUnivlist(html)


if __name__ == '__main__':
    main()

Trisyp

发布了49 篇原创文章 · 获赞 95 · 访问量 23万+

私信关注

猜你喜欢

转载自blog.csdn.net/Trisyp/article/details/78845488

python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs

python获取完整网页内容（即包括js动态加载的）：selenium+phantomjs

Selenium+PhantomJs 爬取网页内容

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

python +selenium+phantomjs 登录爬取新浪微博动态js页面

python爬虫攻略:selenium+phantomjs初探

python Selenium+phantomjs 小技巧

Python3 自动化测试网页Selenium+PhantomJS

Selenium+PhantomJS

selenium+PhantomJs爬虫

Selenium+PhantomJS使用

Python学习笔记--Python 爬虫入门 -17-10 动态数据的采集 Selenium+PhantomJS

3-Python爬虫-动态HTML/Selenium+PhantomJS/chrome无头浏览器-chromedriver

基于selenium+phantomJS的动态网站全站爬取

python selenium+phantomJS自动化测试环境

Python 之selenium+phantomJS斗鱼抓取案例

Selenium+PhantomJS爬虫之路

Selenium+PhantomJS抓取数据

Scrapy对接selenium+phantomjs

mac下anaconda安装selenium+PhantomJS

Selenium+PhantomJS 设置代理IP

selenium+PhantomJS爬取（豆瓣读书）

selenium+phantomjs爬取bilibili

htmlunit获取js与ajax加载的网页内容

使用selenium和phantomJS浏览器获取网页内容的小演示

如何使用Selenium+PhantomJS抓取动态页面以及常见指令和问题

python 爬虫（八）常见的反爬措施以及应对措施（爬虫必备）+ 动态Html页面的处理方法 + selenium+PhantomJS的介绍及安装

selenium+phantomjs 报错解决，不支持phantomjs的解决

python+Selenium PhantomJS网页截图

selenium+PhantomJS小案例—爬豆瓣网所有电影代码python

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)