python利用selenium爬取X蜂窝热门游记 - 代码天地

python利用selenium爬取X蜂窝热门游记

其他 2018-07-18 05:09:58 阅读次数: 0

最近因项目需要，学习了下爬虫。之前都是完成的静态网页的爬去，但大部分网页都是动态加载AJAX，所以学习了selenium。当然也可以通过在network中查找隐藏的网页内容，在利用requests去爬去相关内容。本次主要是为了学习selenium，爬取某蜂窝的热门游记。

from selenium import webdriver
from selenium.webdriver.common.by import By
import re
import time

def load_web(url):
    #打开火狐
    browser = webdriver.Firefox()
    browser.get(url)
    #page = brower.find_element(By.CSS_SELECTOR, 'a.pi')
    time.sleep(3)
    page = 0
    #游记名称及简介
    html_all = []
    content_all = []
    #页码
    while page < 10:
        
        html = browser.find_elements_by_css_selector('#_j_tn_content > div.tn-list > div > div.tn-wrapper > dl > dt > a')
        content = browser.find_elements_by_css_selector('#_j_tn_content > div.tn-list > div > div.tn-wrapper > dl > dd > a')
        html_all.append(html)
        content_all.append(content)
        #翻页
        browser.find_element_by_css_selector('.pg-next').click()
        time.sleep(3)
        page+=1
        
    print(html_all)
        
    return html_all, content_all


#主程序调用
url = 'http://www.mafenxxxxx'
crawl = load_web(url)

#输出[<selenium.webdriver.firefox.webelement.FirefoxWebElement (session="3ad01caf-cc95-4b22-bf85-40cc7d5ced58", element="6d3f8e25-20d4-43a3-969a-68c915274be9")>

本次，只是实现了简单的网页的翻页及抓取。对于首尾页、显示隐示等待、自动登录、解析文件、自动存储、phantomjs等等内容，以待后续完善。

#参考
http://ju.outofmemory.cn/entry/304084 #示例
https://www.cnblogs.com/zhaof/p/6953241.html #语法
http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains #官网

待进一步........

猜你喜欢

转载自blog.csdn.net/weixin_41512727/article/details/80907719

python利用selenium爬取X蜂窝热门游记

使用python爬取马蜂窝游记

python爬取热门小说

python 爬取，selenium

Webmagic学习（爬取马蜂窝、汽车之家、携程旅游游记数据）

Webmagic 爬虫框架爬取马蜂窝、携程旅游、汽车之家游记信息

python_利用selenium 爬取淘宝商品

爬虫puppeteer-马蜂窝列表热门数据爬取 demo（一）

Python 爬取蚂蜂窝旅游攻略（+Scrapy框架+MySQL）

python马蜂窝网站的爬取和简单分析。

用python爬取热门菜谱清单

使用Python 爬取豆瓣热门电影

selenium自动化方式爬取豆瓣热门电影

python + selenium爬取淘宝

python selenium爬取音频

Python——selenium爬取学科

利用selenium爬取淘宝商品

利用selenium爬取知乎图片

利用爬虫爬取 zol网站热门手机

python爬取微博热门消息（三）—— 爬取微博热门信息的功能函数

利用python爬取页面

利用python第三方selenium库爬取QS大学排名

python利用selenium+requests+beautifulsoup爬取12306火车票信息

Python项目实战:爬虫学习,利用selenium浏览器来爬取

python项目实战:利用selenium+浏览器爬取淘宝商品信息

python 利用selenium爬取百度文库的word文章

【小白】利用selenium+python爬取天天基金网--模拟人工查询基金信息

Python利用selenium+PhantomJS爬取猫眼电影Top100

python爬取快手ios端首页热门视频

Python知乎热门话题数据的爬取实战

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)