使用rvest爬虫包获取数据 - 代码天地

使用rvest爬虫包获取数据

其他 2020-02-08 10:26:32 阅读次数: 0

文章目录

@[toc]

Rvest包

安装

常用功能

基本步骤

简单实例

爬虫简单来说就是利用Html、css等前端规范形式，模拟人工手动搜集数据的方式获取数据。

R语言爬虫包Rvest,能够非常方便的爬取一些简单的网页。

Rvest包

安装

install.packages('rvest')

常用功能

函数	描述
read_html()	下载网页
html_nodes()	获得指定名称的网页元素、节点
html_text()	获得指定名称的网页元素、节点文本
html_table()	获取table标签中的表格，默认参数trim=T,header=T为包含表头。结果返回数据框

基本步骤

爬取整张网页
查找所需内容处在节点
爬取相关内容

简单实例

使用谷歌浏览器
在谷歌商店搜索安装SelectorGadget插件,这个插件方便快速找出节点。
SelectorGadget使用
- 安装之后点击浏览器右上角插件。
- 选中需要爬取的内容，右键检查。
记录节点位置。

节点.png

在新浪地产网爬取房地产土地资讯内容(仅出于学习目的)

网站地址http://youcaiyun.com/News/5

#载入rvest包
library(rvest)
#网站地址url
url <- 'http://youcaiyun.com/News/5'
#使用read_html()获取网页
cont <- read_html(url)
#使用html_nodes()解析网页
#由SelectorGadget环节可知
#标题在.desc h1节点,内容在.desc p节点
title <- html_nodes(cont,'.desc h1')
text <- html_nodes(cont,'.desc p')
#使用html_text()提取内容
tit <- html_text(title)
txt <- html_text(text)
#可以看到内容存在换行符号及大量空白
#使用stringr包去除空白
library(stringr)
tit <- str_trim(tit)
txt <- str_trim(txt)
#储存数据
data <- data.frame(tit,txt)
View(data)

view(data).png

$R语言小白速通$
$懂点R语言$
$欢迎分享收藏关注$

R语言小白速通

发布了38 篇原创文章 · 获赞 13 · 访问量 3280

私信关注

猜你喜欢

转载自blog.csdn.net/renewallee/article/details/103221160

使用rvest爬虫包获取数据

R语言：rvest包爬虫学习笔记

R语言：使用rvest包抓取新浪财经A股交易数据

R语言爬虫之rvest包——基础详细介绍+示例

R爬虫（rvest）

rvest爬虫及案例分析

R中使用rvest爬取数据小试

数据获取—爬虫-2（Urllib包解析）

基于rvest包爬取BOSS直聘-上海里有关“数据分析”的职位信息

rvest包爬取猎聘网招聘信息

爬虫数据的获取

爬虫获取JSON数据

爬虫使用selenium和PhantomJS获取动态数据

rvest爬取鸡蛋期货数据（遇到的问题）

使用R语言的RTCGA包获取TCGA数据--转载

【爬虫】获取LedgerX的交易数据

.net爬虫获取post数据

数据获取之爬虫_1

python 爬虫方式获取数据

R言rvest包爬取南京二手房信息

爬虫小案例:使用selenium进行获取简书文章数据并插入数据库

PYTHON 2.7爬虫获取斗图啦网站的表情包数据（区分gif和jpg图片格式）

Python爬虫学习，记一次抓包获取js，从js函数中取数据的过程

使用appt获取包名

Java中使用代理IP获取网址内容（防IP被封，做数据爬虫）

get和post获取数据的基本知识//python爬虫之requests的基本使用

爬虫学习之8：使用网站API获取数据（持续更新）

爬虫入门之————————————————第二节--使用xpath语法获取数据

python爬虫入门之————————————————第四节--使用bs4语法获取数据

Python神技能 | 使用爬虫获取汽车之家全车型数据

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)