R语言Facebook用户数据单一变量分析

版权声明:本文为博主原创文章,未经博主允许不得转载。咨询链接:http://y0.cn/teradat 博文链接: https://blog.csdn.net/qq_19600291/article/details/82020326

先做什么?

笔记:

伪Facebook的用户数据

笔记:

getwd()## [1]“C:/ Users / HH / Desktop / R Data analyst”list.files()## [1]“07-tidy-data.pdf”“demystifying.R”## [3 ]“demystifyingR2_v3.html”“demystifyingR2_v3.Rmd”## [5]“EDA_Course_Materials.zip”“lesson3_student.html”## [7]“lesson3_student.rmd”“pseudo_facebook.tsv”## [9]“reddit.csv “”stateData.csv“## [11]”tidy-data.pdf“pf <-read.delim('pseudo_facebook.tsv')name(pf)## [1]”userid“”age“## [3 ]“dob_day”“dob_year”## [5]“dob_month”“gender”## [7]“tenure”“friend_count”## [9]“friendships_initiated”“likes”## [11]“likes_received”“mobile_likes “## [13]”mobile_likes_received“”www_likes“## [15]”www_likes_received“

用户生日直方图

笔记:

library(ggplot2)qplot(x = dob_day,data = pf)+ scale_x_continuous(breaks = 1:31)##`stat_bin()`using`bins = 30`。用`binwidth`选择更好的价值。

image.png

你注意到这个直方图有哪些东西?

回应:通常很多人一日出生

莫伊拉的调查

笔记:

估算您的受众规模

笔记:

想想您在Facebook上上发布特定消息或分享照片的时间。它以前如何?

响应:

你认为你的朋友中有多少人看到了这个帖子?

响应:

想想你在Facebook的上的朋友百分比会看到你在一个月内发表的任何帖子或评论。你认为这是多少百分比?

响应:

感知受众规模

笔记:

刻面

笔记:

qplot(x = dob_day,data = pf)+ scale_x_continuous(breaks = 1:31)+ facet_wrap(~dob_month,ncol = 3)##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。

image.png

让我们再看看我们的情节。你在这里有什么突出的?

响应:

持怀疑态度 - 异常值和异常

笔记:

莫伊拉的异常值

注意:####您认为哪种情况适用于莫伊拉异常值响应?

朋友数

笔记:

您将输入什么代码来创建朋友计数的直方图?

qplot(friend_count,data = pf)##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。

image.png

这个情节与莫伊拉的第一个情节有何相似之处?

响应:

限制轴

笔记:

qplot(friend_count,data = pf)+ scale_x_continuous(limits = c(0,1000))##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值。##警告:删除了包含非有限值(stat_bin)的2951行。

image.png

使用斌宽度进行探索

笔记:

调整斌宽度

笔记:

面对朋友数量

#你会添加什么代码来按性别创​​建直方图?#将它添加到下面的代码中.qplot(x = friend_count,data = pf,binwidth = 10)+ scale_x_continuous(limits = c(0,1000) ),break = seq(0,1000,50))+ facet_wrap(〜sex性)##警告:删除了包含非有限值(stat_bin)的2951行。

image.png

省略NA值

笔记:

qplot(friend_count,data = subset(pf,!is.na(gender)),binwidth = 25)+ scale_x_continuous(limits = c(0,1000),breaks = seq(0,1000,50))+ facet_wrap(〜性别)##警告:删除了包含非有限值(stat_bin)的2949行。

image.png

统计 '按' 性别

笔记:

table(pf $ gender)## ## female male ## 40254 58574by(pf $ friend_count,pf $ gender,summary)## pf $ gender:female ## Min。第一曲。中位数第3曲。最大。## 0 37 96 242 244 4923 ## --------------------------------------- - ---------------- ## pf $性别:男## Min。第一曲。中位数第3曲。最大。## 0 27 74 165 182 4917

谁平均有更多的朋友:男人还是女人?

回复:女性####女性和男性的中位朋友数有什么不同?回复:22 ####为什么中位数比平均值更好?回复:有极端数据时不要改变太多***

保有

笔记:

qplot(x = tenure,data = pf,binwidth = 30,color = I('black'),fill = I('#099DD9'))##警告:删除了包含非有限值(stat_bin)的2行。

image.png

你会如何创建一年的任期直方图?

qplot(x = tenure / 365,data = pf,binwidth = .25,color = I('black'),fill = I('#F79420'))+ scale_x_continuous(breaks = seq(1,7,1), limits = c(0,7))##警告:删除了包含非有限值(stat_bin)的26行。

image.png

标记图

笔记:

qplot(x = tenure / 365,data = pf,xlab ='使用FB的年数',ylab ='样本中的用户数',binwidth = .25,color = I('black'),fill = I(' #F79420'))+ scale_x_continuous(breaks = seq(1,7,1),limits = c(0,7))##警告:删除了包含非有限值(stat_bin)的26行。

image.png

用户年龄

笔记:

qplot(x =年龄,数据= pf,xlab ='用户年龄',ylab ='用户数',binwidth = 1,color = I('black'),fill = I('#5760AB'))+ scale_x_continuous(断裂= SEQ(1,113,5))

image.png

你注意到了什么?

响应:

模因的传播

笔记:

Lada的Money Bag Meme

笔记:

转换数据

笔记:

library(gridExtra)p1 < - qplot(x = friend_count,data = pf)p2 < - qplot(x = log10(friend_count + 1),data = pf)p3 < - qplot(x = sqrt(friend_count + 1),data = pf)grid.arrange(p1,p2,p3)##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值。##`stat_bin()`使用`bins = 30` 。用`binwidth`选择更好的值。##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。

image.png

p1 < - ggplot(aes(x = friend_count),data = pf)+ geom_histogram()p2 < - p1 + scale_x_log10()p3 < - p1 + scale_x_sqrt()grid.arrange(p1,p2,p3)##`stat_bin ()`使用`bins = 30`。使用`binwidth`选择更好的值。##警告:转换在连续的x轴中引入了无限值##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值。##警告:删除了1962行包含非有限值(stat_bin)。##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的价值。

image.png

添加缩放图层

笔记:

qplot(x = friend_count,data = pf)+ scale_x_log10()##警告:转换在连续的x轴中引入了无限值##`stat_bin()`使用`bins = 30`。用`binwidth`选择更好的值##警告:删除了包含非有限值(stat_bin)的1962行。

image.png

频率多边形

q1 < - ggplot(aes(x = friend_count,y = .. count ../ sum(.. count ..)),data = subset(pf,!is.na(gender)))+ geom_freqpoly(aes(color) )=性别),binwidth = 10)+ scale_x_continuous(limits = c(0,1000),breaks =
 

image.png

喜欢网络

笔记:

by(pf $ www_likes,pf $ gender,sum)## pf $ gender:female ## [1] 3507665 ## ----------------------- --------------------------------- ## pf $性别:男## [1] 1430175by(pf $ www_likes_received ,pf $性别,总和)## pf $性别:女性## [1] 4199879 ## ---------------------------- ---------------------------- ## pf $性别:男## [1] 1586098

方块图

笔记:

qplot(x =性别,y = friend_count,data = subset(pf,!is.na(性别)),geom ='boxplot')+ scale_y_log10()##警告:转换在连续的y轴中引入了无限值##警告:删除了包含非有限值的1962行(stat_boxplot)。

image.png

调整代码以关注朋友数在0到1000之间的用户。

qplot(x =性别,y = friend_count,data = subset(pf,!is.na(性别)),geom ='boxplot')+ coord_cartesian(ylim = c(0,1000))

image.png

箱形图,四分位数和友谊

▍需要帮助?联系我们

大数据部落       -中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和

统计分析和数据挖掘咨询服务:y0.cn/teradat(咨询服务请联系官网客服

点击这里给我发消息QQ:3025393450

【服务场景】        

 科研项目; 公司项目外包;线上线下一对一培训;学术研究。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务

 

分享最新的大数据资讯,每天学习一点数据分析,让我们一起做有态度的数据人【大数据部落】大数据部落提供定制化的一站式数据挖掘和统计分析咨询服务

微信客服号:lico_9e

QQ交流群:186388004  

欢迎关注微信公众号,了解更多数据干货资讯!

加入欢迎的我们大数据学习必备利器课程

http://study.163.com/course/courseMain.htm?courseId=1003776041&share=2&shareId=1023497288

 

猜你喜欢

转载自blog.csdn.net/qq_19600291/article/details/82020326