版权声明:本文为博主原创文章,未经博主允许不得转载。
·ANALYTIC GRAPHS分析性图表:
塔夫特的基本原则:
- 明确参照物Show comparisons 这一点基本是 所有科学的一个基本思想,也就是支持某一假设或某个对世界的思考之证据,一定与另一个假设是相对的 , 证据总是相对的。
箱线图 (boxplot)
-
体现出因果关系或机制 Show causality, mechanism, explanation, systematic structure: 阐明其系统结构,因果关系并非是形式上的,而是你的认识 你对世界运行方式的看法
-
展示多元数据 (multivariate data)
-
整合你所拥有的证据 Integration of evidence :基本思路是,用尽可能多的方式展现证据
-
第五条原则是对你所呈现的证据进行描述和文档化,打上标签 标记好来源:
Describe and document the evidence with appropriate labels, scales, sources, etc
- 你使用的数据是任何图表里最重要的元素:
Content is king
构建图表的意义有:
- 理解数据的性质data properties
- 从数据的基本模式中寻找合适的模式patterns
- 提出一些建模策略modeling strategies, 比如我们要使用线性还是非线性模型
- 找出分析中的错误 "debug"
- 以图表的形式向别人展示一些信息 To communicate results
·一维的数据理解数据的步骤有:
Five-number summary
summary(data)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.38 8.55 10.00 9.84 11.40 18.40
Boxplots (箱型图):也可以在箱型图上添加不同的线来。
boxplot(pollution$pm25, col = "blue")
Histograms (直方图)
hist(pollution$pm25, col = "green")
rug(pollution$pm25)
Density plot (密度估计)
Barplot
barplot(table(pollution$region), col = "wheat", main = "Number of Counties in Each Region")
二维的
Multiple/overlayed :1-D plots (Lattice/ggplot2)
Multiple Boxplots ;Multiple Boxplots
Scatterplots :Multiple Scatterplots Multiple Scatt
Using Color
#Scatterplot Scatterplot
with(pollution, plot(latitude, pm25))
abline(h = 12, lwd = 2, lty = 2)
Smooth scatterplots
总结:
利用 R 绘制数据的一维和二维图,还有利用颜色和图表组合,做出比二维图更好的三维图。首先 这些探索性图表通常都是 “快速而粗略” 的,注意 我没有在调整坐标轴与设置标注上花任何时间。大多数时候,我仅仅是用 R 中的预设值,但是探索性图表的一个优点就是:可以让你汇总数据,并且突出数据中一些可能会感兴趣的广泛特点,你可以探索一些基本的问题和假设。这些图也为下一步研究 如更多的详细分析和模型拟合,提供了有用的模型策略
最后,介绍以下这个非常出名有代表性的书:Edward Tufte (2006). Beautiful Evidence, Graphics Press LLC.