我的数据工具学习之旅

版权声明:本文为博主原创文章,欢迎转载。 https://blog.csdn.net/u011521609/article/details/63252896

今日终于完成了使用r语言做批量地址反地理编码的尝试,对比之前来说总共折腾了一小时,thank god, 坑还不算多。这也是正式用r做出来第一个真正自己需要的功能。至此,我也把最近主流的数据分析工具都体验了一把,写写心得。

为何要学习

去年在tableau的一个小型活动上认识了一个程序员,之前我一直在尝试商业地理分析方面的产品,有思路,卡在技术实现上面,于是想和他合作,但是无奈it们现在真的很赚钱,而且你的idea也基本很难打动it们,这又让我回想起之前的经历,如果你不努力,就要去求人,做成一件事情,付出都是一样的,这方面少那方面就要多,求人也是用人,这方面我暂时也不可能去做。既然技术合伙人那个阶段还不太好找,那就自己去探索吧。

首先学习python 爬虫

之前一直用火车头爬虫,由简到繁也有不少坑,但是发现随着大家爬数据越来越多,反扒机制越来越好,加上网页技术的进步,火车头也越来越不好用了,于是硬着头皮开始学习python,python确实很好,速度远超火车头,而且解决方案多并且灵活,前一段时间还用python selenium搞定了之前一直感兴趣但无法爬取的网站,详细见我的博客。

对比tableau和其他前端工具

可视化是大热门,对专业分析师来说,可视化就是探索的过程,在上海拜访了一个coder转做数据的大牛,给我展示了他的一些前端成果,主要来自github,我看了一下感觉和tableau功能都差不多,然我给他展示了tableau,学技术的人之前都对tableau不算感冒,开源的时代tb显得太贵,但大牛发现tb desktop版本的数据交互功能真的很棒,对于业务人员或者coding功底不好的数据分析人员来说tableau是个很好的工具,再加上我很需要地图,ok 今后探索性数据分析我就用tableau,因为可以省去写代码,并且地图功能强大交互性也很棒!

开始学习r

之前听了三次r会议,第一次学术氛围还是很好的,也第一次听了很多统计大师包括吴喜之老师的现场讲课,感触颇深,很多观点很好,例如统计学就是批判式的数据分析!有了r之后,还需要用那些随便点击就能出结果的统计分析软件吗?(貌似暗指spss),后面我越听越觉得他们技术好,但是业务不好,于是我也要报名,同时也是为自己增加一些宣传tag吧,我也要去讲,现在报名了,其实内容也和r关系不大,就是地理编码,好吧,这个问题必须解决,而且我今后也用得到,因为比百度的js代码速度快多了。ps,这次学习是慕课网的美女老师,讲得很好,感觉使用r真的爽,简单灵活!

定位与分工

现在我把python当作更主要的数据工具,因为做分析首先你要获得数据,而且python也是一门真正的编程语言,学coding对自己的生活也是有帮助的,用正则表达式也要在python中。

r,这是一个极好的探索分析、工具(例如baidumap包)、专业统计分析包,哈哈!今后再也不需要spss了,更不需要excel加载专业的模块了。

excel还会用,因为需要通过excel去理解很多数据结构,并且大部分场景都是在和dirty data打交道,数据量不大的情况下,直接用excel最简单(没办法,我们国家目前传统行业的数据都这样)

tableau,当然很多,做做图,更好的是做数据产品原型。

还有一个上次上海大牛分享的,orange3,数据挖掘工具,下载很多次都失败,结果在东莞酒店瞬间下载(酒店网速很烂),真是那句话:不是有希望再去坚持,而是坚持了才有希望!这是一个很好的数据挖掘工具,适合我这样的小白。

其他的对于我这个业务人员来说也暂时不去做了,差异主要在性能,目前这些就够我玩了

该吃饭了

今后上面的这些都要学习!也把今日的r代码贴出来:

baidumap包:

https://github.com/badbye/baidumap

getLocation
Get location from coordinates data.

lon = matrix(c(117.93780, 24.55730, 117.93291, 24.57745, 117.23530, 24.64210, 117.05890, 24.74860), byrow=T, ncol=2)

json

location_json = getLocation(lon[, 1], lon[, 2], output=’json’)

xml

location_xml = getLocation(lon[, 1], lon[, 2], output=’xml’)

formatted

location = getLocation(lon[, 1], lon[, 2], formatted = T)

GetCoordinate

Given a address, return the corresponding coordinates

getCoordinate(‘北京大学’) # json
getCoordinate(‘北京大学’, output=’xml’) # xml
getCoordinate(‘北京大学’, formatted = T) # character
getCoordinate(c(‘北京大学’, ‘清华大学’), formatted = T) # matrix

getBaiduMap

p <- getBaiduMap(lon=116.354431, lat=39.942333)
library(ggmap)
ggmap(p)

我的代码:

df<-read.csv2(‘path/baidumapadd.csv’,fileEncoding = “GBK”,header = F)
x <- as.vector(as.matrix(df)) #df是一个dataframe 首先转化成matrix 再转化成vector
library(baidumap)
getCoordinate(x)

猜你喜欢

转载自blog.csdn.net/u011521609/article/details/63252896