R爬虫（rvest） - 代码天地

R爬虫（rvest）

编程语言 2018-08-22 10:24:41 阅读次数: 0

基于R

相信自己，每天多学一点。

温故而知新，如有错误请指正。

东方玄学，总是充满了神奇的。

（一本正经的背景：射手座水逆的很严重啊= = ）

（好吧，就是闲的没事想找找周易玄学的书了）= =

这次用到了R包中的爬虫weapon之一 rvest。

爬虫的网站是当当网（书的资源比较舒服，爬的也舒服~~）

首先是导入包

首页的网址：http://category.dangdang.com/pg1-cp01.28.01.17.00.00.html

在这里我们其实已经可以找找规律了，页码在pg后位数字表示，

然后在查看源码，会发现在html中我们所需要的信息都已经包括了（不愧是超文本~~）

这里，我们直接可以read_html

结果会得到很多一串的东西，就是之前看到的源码

这里我们可以直接看标签正则取出来我们需要的东西的

最后直接整理一下，作为数据框返回就好了~

好吧，其实到这里，mission completely~~~

但是还有一个问题的，这只是爬取了第一页的数据的，那么要是想爬取多个应该怎么办呢？

好吧，这个也很简单的。

循环搞定。

这里，我会先把上面的爬取的东西集合，作为一个自定义函数，如下：

下面，直接写一个for循环解决问题。

下面，没然后了，想写出为csv也行，随便咯~

我这边是写出为csv了~

看一下效果~

好啦，今晚就稍微皮一下就好了~~

溜了溜了~

猜你喜欢

转载自blog.csdn.net/Nicky_1218/article/details/81914673

R爬虫（rvest）

R语言：rvest包爬虫学习笔记

R语言爬虫之rvest包——基础详细介绍+示例

rvest爬虫及案例分析

使用rvest爬虫包获取数据

R中使用rvest爬取数据小试

R言rvest包爬取南京二手房信息

R语言：使用rvest包抓取新浪财经A股交易数据

R rvest抓取产品市场价格，对有不同列的表格进行统一抓取

【R】爬虫案例

R语言网页爬虫

R语言爬虫、新闻

R语音 rvest爬取中国天气网所有城市未来七天天气数据并写入oracle数据库

R语言网络爬虫经验

使用R进行pubmed爬虫

R网络爬虫-RCurl包

R爬虫常用的包与用法

爬虫中 r.text 与 r.content 的区别

R语言爬虫：RSelenium包常用函数

R语言爬虫-高评分豆瓣图书

给社团同学做的R语言爬虫分享

R语言爬虫与文本分析

R语言爬虫、房价爬取

rvest包爬取猎聘网招聘信息

rvest爬取鸡蛋期货数据（遇到的问题）

[笔记]R语言爬虫入门——豆瓣新片数据爬取

R语言中处理XML/HTML函数详解-爬虫相关

R语言完成中国裁判文书网最新爬虫

R语言爬虫：豆瓣电影Top250（二）

R语言爬虫：豆瓣电影Top250（一）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)