先做什么?
笔记:
伪Facebook的用户数据
笔记:
getwd()## [1]“C:/ Users / HH / Desktop / R Data analyst”list.files()## [1]“07-tidy-data.pdf”“demystifying.R”## [3 ]“demystifyingR2_v3.html”“demystifyingR2_v3.Rmd”## [5]“EDA_Course_Materials.zip”“lesson3_student.html”## [7]“lesson3_student.rmd”“pseudo_facebook.tsv”## [9]“reddit.csv “”stateData.csv“## [11]”tidy-data.pdf“pf <-read.delim('pseudo_facebook.tsv')name(pf)## [1]”userid“”age“## [3 ]“dob_day”“dob_year”## [5]“dob_month”“gender”## [7]“tenure”“friend_count”## [9]“friendships_initiated”“likes”## [11]“likes_received”“mobile_likes “## [13]”mobile_likes_received“”www_likes“## [15]”www_likes_received“
用户生日直方图
笔记:
library(ggplot2)qplot(x = dob_day,data = pf)+ scale_x_continuous(breaks = 1:31)##`stat_bin()`using`bins = 30`。用`binwidth`选择更好的价值。
image.png
你注意到这个直方图有哪些东西?
回应:通常很多人一日出生
莫伊拉的调查
笔记:
估算您的受众规模
笔记:
想想您在Facebook上上发布特定消息或分享照片的时间。它以前如何?
响应:
你认为你的朋友中有多少人看到了这个帖子?
响应:
想想你在Facebook的上的朋友百分比会看到你在一个月内发表的任何帖子或评论。你认为这是多少百分比?
响应:
感知受众规模
笔记:
刻面
笔记:
qplot(x = dob_day,data = pf)+ scale_x_continuous(breaks = 1:31)+ facet_wrap(~dob_month,ncol = 3)##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。
image.png
让我们再看看我们的情节。你在这里有什么突出的?
响应:
持怀疑态度 - 异常值和异常
笔记:
莫伊拉的异常值
注意:####您认为哪种情况适用于莫伊拉异常值响应?
朋友数
笔记:
您将输入什么代码来创建朋友计数的直方图?
qplot(friend_count,data = pf)##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。
image.png
这个情节与莫伊拉的第一个情节有何相似之处?
响应:
限制轴
笔记:
qplot(friend_count,data = pf)+ scale_x_continuous(limits = c(0,1000))##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值。##警告:删除了包含非有限值(stat_bin)的2951行。
image.png
使用斌宽度进行探索
笔记:
调整斌宽度
笔记:
面对朋友数量
#你会添加什么代码来按性别创建直方图?#将它添加到下面的代码中.qplot(x = friend_count,data = pf,binwidth = 10)+ scale_x_continuous(limits = c(0,1000) ),break = seq(0,1000,50))+ facet_wrap(〜sex性)##警告:删除了包含非有限值(stat_bin)的2951行。
image.png
省略NA值
笔记:
qplot(friend_count,data = subset(pf,!is.na(gender)),binwidth = 25)+ scale_x_continuous(limits = c(0,1000),breaks = seq(0,1000,50))+ facet_wrap(〜性别)##警告:删除了包含非有限值(stat_bin)的2949行。
image.png
统计 '按' 性别
笔记:
table(pf $ gender)## ## female male ## 40254 58574by(pf $ friend_count,pf $ gender,summary)## pf $ gender:female ## Min。第一曲。中位数第3曲。最大。## 0 37 96 242 244 4923 ## --------------------------------------- - ---------------- ## pf $性别:男## Min。第一曲。中位数第3曲。最大。## 0 27 74 165 182 4917
谁平均有更多的朋友:男人还是女人?
回复:女性####女性和男性的中位朋友数有什么不同?回复:22 ####为什么中位数比平均值更好?回复:有极端数据时不要改变太多***
保有
笔记:
qplot(x = tenure,data = pf,binwidth = 30,color = I('black'),fill = I('#099DD9'))##警告:删除了包含非有限值(stat_bin)的2行。
image.png
你会如何创建一年的任期直方图?
qplot(x = tenure / 365,data = pf,binwidth = .25,color = I('black'),fill = I('#F79420'))+ scale_x_continuous(breaks = seq(1,7,1), limits = c(0,7))##警告:删除了包含非有限值(stat_bin)的26行。
image.png
标记图
笔记:
qplot(x = tenure / 365,data = pf,xlab ='使用FB的年数',ylab ='样本中的用户数',binwidth = .25,color = I('black'),fill = I(' #F79420'))+ scale_x_continuous(breaks = seq(1,7,1),limits = c(0,7))##警告:删除了包含非有限值(stat_bin)的26行。
image.png
用户年龄
笔记:
qplot(x =年龄,数据= pf,xlab ='用户年龄',ylab ='用户数',binwidth = 1,color = I('black'),fill = I('#5760AB'))+ scale_x_continuous(断裂= SEQ(1,113,5))
image.png
你注意到了什么?
响应:
模因的传播
笔记:
Lada的Money Bag Meme
笔记:
转换数据
笔记:
library(gridExtra)p1 < - qplot(x = friend_count,data = pf)p2 < - qplot(x = log10(friend_count + 1),data = pf)p3 < - qplot(x = sqrt(friend_count + 1),data = pf)grid.arrange(p1,p2,p3)##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值。##`stat_bin()`使用`bins = 30` 。用`binwidth`选择更好的值。##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。
image.png
p1 < - ggplot(aes(x = friend_count),data = pf)+ geom_histogram()p2 < - p1 + scale_x_log10()p3 < - p1 + scale_x_sqrt()grid.arrange(p1,p2,p3)##`stat_bin ()`使用`bins = 30`。使用`binwidth`选择更好的值。##警告:转换在连续的x轴中引入了无限值##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值。##警告:删除了1962行包含非有限值(stat_bin)。##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。
image.png
添加缩放图层
笔记:
qplot(x = friend_count,data = pf)+ scale_x_log10()##警告:转换在连续的x轴中引入了无限值##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值##警告:删除了包含非有限值(stat_bin)的1962行。
image.png
频率多边形
q1 < - ggplot(aes(x = friend_count,y = .. count ../ sum(.. count ..)),data = subset(pf,!is.na(gender)))+ geom_freqpoly(aes(color) )=性别),binwidth = 10)+ scale_x_continuous(limits = c(0,1000),breaks =
image.png
喜欢网络
笔记:
by(pf $ www_likes,pf $ gender,sum)## pf $ gender:female ## [1] 3507665 ## ----------------------- --------------------------------- ## pf $性别:男## [1] 1430175by(pf $ www_likes_received ,pf $性别,总和)## pf $性别:女性## [1] 4199879 ## ---------------------------- ---------------------------- ## pf $性别:男## [1] 1586098
方块图
笔记:
qplot(x =性别,y = friend_count,data = subset(pf,!is.na(性别)),geom ='boxplot')+ scale_y_log10()##警告:转换在连续的y轴中引入了无限值##警告:删除了包含非有限值的1962行(stat_boxplot)。
image.png
调整代码以关注朋友数在0到1000之间的用户。
qplot(x =性别,y = friend_count,data = subset(pf,!is.na(性别)),geom ='boxplot')+ coord_cartesian(ylim = c(0,1000))
image.png
箱形图,四分位数和友谊
▍需要帮助?联系我们
大数据部落 -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和
统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服)
【服务场景】
科研项目; 公司项目外包;线上线下一对一培训;学术研究。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务
分享最新的大数据资讯,每天学习一点数据分析,让我们一起做有态度的数据人
微信客服号:lico_9e
QQ交流群:186388004
欢迎关注微信公众号,了解更多数据干货资讯!
加入欢迎的我们大数据学习必备利器课程
http://study.163.com/course/courseMain.htm?courseId=1003776041&share=2&shareId=1023497288