BeautifulSoup在R语言里的实现 - 代码天地

BeautifulSoup在R语言里的实现

其他 2018-07-07 05:09:25 阅读次数: 0

一说到爬虫，大家第一时间想到的便是Python，但是实际上，R也能实现爬虫的功能，并且在某些特定的结构中，R的效率非常高，下面就来介绍一个关于R语言实现BeautifulSoup的功能的例子。

同样的，我们以天天基金网的QDII 基金净值为例子（详情可以见我上一篇文章点击打开链接），为了爬取其中symbol以及净值数据，R可以通过短短几行代码实现：

install.packages('XML') #安装包
library(XML)  #读取包
url<- 'http://fund.eastmoney.com/QDII_jzzzl.html#os_0;isall_0;ft_;pt_6' #网址
tables<- readHTMLTable(url,which=3) #读取table，which=3意思是读取网页结构里面第三个table
fund<-tables[,c(4,8)]  #获取需要的数据，第三列为symbol，第八列为净值
colnames(fund)<-c('symbol','NAV')  #命名

最后结果为：

可以发现R爬取网页非常简洁，且能达到与python一样的效果，难点在于1.which=3需要自己取网页代码源里去找（你不找其实也无所谓，就是会把所有table结构都抓下来）；2.这个function只能抓table结构的数据，同理有一个readHTMLList function，具体功能就不介绍了

在功能的完整性上，PYTHON绝对优于R，毕竟R基本上只服务于统计与数据分析，这篇文章提供一个思路，为只使用R的人来实现数据获取提供可能性。

猜你喜欢

转载自blog.csdn.net/clintlong/article/details/80847492

BeautifulSoup在R语言里的实现

逻辑回归及R语言的实现

R语言：bagging算法的实现

R语言：Adaboost算法的实现

r 语言里拟合函数的参数估计

python 语言 beautifulsoup xpath

高级语言里的函数在汇编里的实现方式

R语言学习记录：聚类分析的R实现

R语言学习记录：因子分析的R实现

用python实现js语言里的特性

在Go语言里该怎么实现枚举？

R语言实现ochiia系数

Bagging算法的R语言实现

R语言中实现随机分布

R语言实现的长转宽

R语言实现图像查重

雷达图的实现（R语言及Python）

卡方检验的R语言实现

Fisher线性判别及R语言实现

基于R语言实现SVM

用R语言实现信息度量

R语言实现聚类kmeans

R语言：xgboost算法的实现——xgboost包

R语言：KNN算法的实现——kknn包

R语言：SVM的实现——e1071

R语言：随机森林的实现——randomForest

R语言数据框实现分类汇总

随机森林篇 R语言实现

逻辑回归算法实现_基于R语言

R语言：实现雷达图的绘制

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)