Python3 -- 基于Splinter工具爬取网页资源 - 代码天地

Python3 -- 基于Splinter工具爬取网页资源

其他 2018-08-14 22:08:39 阅读次数: 0

我这篇：博客中的内容，就是通过以下python代码，爬取的。
参考资源：https://hackernoon.com/mastering-python-web-scraping-get-your-data-back-e9a5cc653d88

引用2个python第三方模块
- splinter
- pandas

#!/usr/bin/python
# -*- coding: utf-8 -*-


from splinter import Browser
import pandas as pd

# open a browser
browser = Browser('chrome')
browser.visit('https://medium.mybridge.co/python-top-45-tutorials-for-the-past-year-v-2018-1b4d46c9e857')

# I recommend using single quotes
# search_bar_xpath = '//*[@id="lst-ib"]'
# search_bar = browser.find_by_xpath(search_bar_xpath)[0]
#
# search_bar.fill("CodingStartups.com")

# search_button_xpath = '//*[@id="tsf"]/div[2]/div[3]/center/input[1]'
# search_button = browser.find_by_xpath(search_button_xpath)[0]
# search_button.click()

# //*[@id="rso"]/div/div/div[1]/div/div/h3/a
search_results_xpath = '//*[@class="graf graf--p graf-after--figure"]/a'  # simple, right?
search_results = browser.find_by_xpath(search_results_xpath)

scraped_data = []
for search_result in search_results:
    title = search_result.text  # trust me
    print(title)
    link = search_result["href"]
    scraped_data.append((title, link))  # put in tuples

df = pd.DataFrame(data=scraped_data, columns=["Title", "Link"])
df.to_csv("links.csv", encoding='utf_8_sig')

猜你喜欢

转载自blog.csdn.net/u010926176/article/details/79279741

Python3 -- 基于Splinter工具爬取网页资源

python3爬取网页图片

python3 爬取天气网页

python3爬虫爬取网页图片简单示例

python3爬虫之二：爬取网页图片

python3 爬取36氪新闻网页

python3 从网页上爬取图片

python3 url 爬取网页并读写

Python3 爬取Ajax加载的网页信息

Python3 Ajax加载的网页爬取

python3定向爬取网页内容

python3 爬取网页表格例子

python3 爬取网页的异常处理

python3爬取网页图片路径并写入文件

python3爬取网页中的邮箱地址

Python3 使用request模块爬取网页的图片

Python3 使用urllib 爬取网页

基于python3 爬取糗事百科

Python3——爬取淘宝评论

python3爬取图片

python3爬取租房的信息

python3 爬取影像数据

python3 爬取API数据

使用Python3爬取美女

使用python3爬取小说

Python3爬取音乐

splinter的简单使用（python3 windows）

python3爬虫(3):基于urllib3的request库爬取网站图片

用python2和python3伪装浏览器爬取网页

python爬取网页中文乱码。解决方案。python3

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)