2第二章 地理数据及其采集与预处理
2.1地理数据类型
空间数据 :用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系,包含有点、线、面 ,点线面之间的拓扑关系。
属性数据 :用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征
数量标志数据 间隔尺度数据 :以有量纲 的数据形式表示测度对象在某种单位(量纲)下的绝对量。
比例尺度数据 :以无量纲 的数据形式表示测度对象的相对量
品质标志数据
有序数据 :当测度标准不是连续的量,只是表示其顺序关系的数据
二元数据 :用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题
名义尺度数据 :用数字表示地理实体、地理要素、地理现象或地理事件的状态类型
2.2地理数据基本特征
数量化、形式化、逻辑化:定量化的地理数据是建立地理数学模型的基础,其作用为:确定模型的参数、给定模型运行的初值条件;检验模型的有效性。形式化、逻辑化与数量化,是所有地理数据的共同特征。
不确定性:地理系统本身的复杂性从本质上决定着地理数据的不确定性
多种时空尺度:从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度——既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的,从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、月、季度、年等
多维性:一个地理对象的具体意义要从空间、属性、时间三个方面综合描述,空间方面,描述该地理对象所处的地理位置和空间范围,一般需要2~3个变量,属性方面,描述该地理对象的具体内容,至少需要1个以上,多则需要十几个、甚至几十个变量,时间方面,描述该地理对象产生、发展和存在的时间范围 ,需要1个变量,地理数据的多维性,被描述为地理数据立方体。(the geographical data cube)
2.3地理数据的采集与处理
2.3.1地理数据采集
地理数据的渠道来源 : ①来自于观测、测量部门的专业数据。 ②来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。 ③来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。 ④来自于政府公报、文件中的有关数据 ⑤来自于档案、图书等文献资料中的有关数据。 ⑥来自于互联网(Internet)的有关共享数据。 ⑦来自地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。 ⑧来自遥感数据。主要包括各种航空遥感数据和卫星遥感数据。 ⑨其他来源的有关数据。 采集地理数据过程中需要注意的问题 : ①数据的完备性和可靠性。 ②在数据采集过程中,最大限度地减小数据的误差。 ③在数据采集完毕后,进行检验,辨别真伪,通过数据筛选,去粗取精、去伪存真
2.3.2地理数据处理
地理数据处理,是地理问题研究的核心环节。 从理论上讲,在地理学中,数学方法的运用主要有两个目的:(1)运用数学语言对地理问题的描述,建立地理数学模型,从更高、更深层次上揭示地理问题的机理;(2)运用有关数学方法,通过定量化的计算和分析,对地理数据进行处理,从而揭示有关地理现象的内在规律
2.4地理数据的统计预处理
2.4.1统计整理
①统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。 ②计算各组数据的频数、频率,编制统计分组表。 ③作分布图。
2.4.2几种常用的统计指标与参数
2.4.2.1描述地理数据一般水平的指标
平均值 :未分组
x
ˉ
=
1
n
∑
i
=
1
n
x
i
\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i}
x ˉ = n 1 ∑ i = 1 n x i 分组
x
ˉ
=
∑
i
=
1
m
f
i
x
i
∑
i
=
1
m
f
i
\bar{x}=\frac{\sum_{i=1}^{m} f_{i} x_{i}}{\sum_{i=1}^{m} f_{i}}
x ˉ = ∑ i = 1 m f i ∑ i = 1 m f i x i
中位数 :未分组 排在中间的位置
分组
M
e
=
L
+
d
×
1
2
∑
i
=
1
n
f
i
−
S
m
−
1
f
m
M_{e}=L+d \times \frac{\frac{1}{2} \sum_{i=1}^{n} f_{i}-S_{m-1}}{f_{m}}
M e = L + d × f m 2 1 ∑ i = 1 n f i − S m − 1 或
M
e
=
U
−
d
×
1
2
∑
i
=
1
n
f
i
−
S
m
+
1
f
m
M_{e}=U-d \times \frac{\frac{1}{2} \sum_{i=1}^{n} f_{i}-S_{m+1}}{f_{m}}
M e = U − d × f m 2 1 ∑ i = 1 n f i − S m + 1
M
e
M_e
M e 代表中位数;
L
L
L 为中位数所在组的下限值;
U
U
U 为中位数所在组的上限值;
f
m
f_m
f m 为中位数所在组的频数;
S
m
−
1
S_{m-1}
S m − 1 为中位数所在组以下的累计频数;
S
m
+
1
S_{m+1}
S m + 1 为中位数所在组以上的累计频数;
d
d
d 为中位数所在组的组距
众数 :未分组 频数最大的 分组
M
0
=
L
+
d
×
Δ
1
Δ
1
+
Δ
2
M_{0}=L+d \times \frac{\Delta_{1}}{\Delta_{1}+\Delta_{2}}
M 0 = L + d × Δ 1 + Δ 2 Δ 1 或
M
0
=
U
−
d
×
Δ
2
Δ
1
+
Δ
2
M_{0}=U-d \times \frac{\Delta_{2}}{\Delta_{1}+\Delta_{2}}
M 0 = U − d × Δ 1 + Δ 2 Δ 2
M
0
M_0
M 0 代表众数;
L
L
L 为众数所在组的下限值;
U
U
U 为众数所在组的上限值;
Δ
1
\Delta_1
Δ 1 为众数组频数与上一组频数之差;
Δ
2
\Delta_2
Δ 2 为众数组频数与下一组频数之差;
d
d
d 为众数所在组的组距
计算举例 :
平均数:
x
ˉ
=
∑
i
=
1
m
f
i
x
i
∑
i
=
1
m
f
i
=
(
300
∗
2500
+
1300
∗
3500
+
200
∗
4500
+
150
∗
5500
+
100
∗
6500
+
50
∗
7500
+
30
∗
8500
)
/
2130
=
3899.06
\bar{x}=\frac{\sum_{i=1}^{m} f_{i} x_{i}}{\sum_{i=1}^{m} f_{i}}\\ =(300*2500+1300*3500+200*4500+150*5500+100*6500\\ +50*7500+30*8500)/2130=3899.06
x ˉ = ∑ i = 1 m f i ∑ i = 1 m f i x i = ( 3 0 0 ∗ 2 5 0 0 + 1 3 0 0 ∗ 3 5 0 0 + 2 0 0 ∗ 4 5 0 0 + 1 5 0 ∗ 5 5 0 0 + 1 0 0 ∗ 6 5 0 0 + 5 0 ∗ 7 5 0 0 + 3 0 ∗ 8 5 0 0 ) / 2 1 3 0 = 3 8 9 9 . 0 6 中位数:
确定中位数所在组为
[
3000
,
4000
]
[3000,4000]
[ 3 0 0 0 , 4 0 0 0 ]
M
e
=
L
+
d
×
1
2
∑
i
=
1
n
f
i
−
S
m
−
1
f
m
=
3000
+
1000
×
1
2
×
2130
−
300
1300
=
3588.46
M_{e}=L+d \times \frac{\frac{1}{2} \sum_{i=1}^{n} f_{i}-S_{m-1}}{f_{m}}\\ =3000+1000\times\frac{\frac{1}{2}\times2130-300}{1300}=3588.46
M e = L + d × f m 2 1 ∑ i = 1 n f i − S m − 1 = 3 0 0 0 + 1 0 0 0 × 1 3 0 0 2 1 × 2 1 3 0 − 3 0 0 = 3 5 8 8 . 4 6 众数:
确定中位数所在组为
[
3000
,
4000
]
[3000,4000]
[ 3 0 0 0 , 4 0 0 0 ]
M
0
=
L
+
d
×
Δ
1
Δ
1
+
Δ
2
=
3000
+
1000
×
1300
−
300
1300
−
300
+
1300
−
200
=
3476.19
M_{0}=L+d \times \frac{\Delta_{1}}{\Delta_{1}+\Delta_{2}}\\ =3000+1000\times\frac{1300-300}{1300-300+1300-200}=3476.19
M 0 = L + d × Δ 1 + Δ 2 Δ 1 = 3 0 0 0 + 1 0 0 0 × 1 3 0 0 − 3 0 0 + 1 3 0 0 − 2 0 0 1 3 0 0 − 3 0 0 = 3 4 7 6 . 1 9
2.4.2.2描述地理数据分布的离散程度的指标
极差 :最大值与最小值之差
R
=
m
a
x
x
i
−
m
i
n
x
i
R=max{x_i}-min{x_i}
R = m a x x i − m i n x i
离差 :每个数据与平均值的差
d
i
=
x
i
−
x
ˉ
d_i=x_i-\bar{x}
d i = x i − x ˉ
离差平方和 :它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为
d
2
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
d^2=\sum_{i=1}^{n}(x_i-\bar{x})^2
d 2 = ∑ i = 1 n ( x i − x ˉ ) 2
方差 :从平均概况衡量一组地理数据与平均值的离散程度,
σ
2
=
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
\sigma^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}
σ 2 = n 1 ∑ i = 1 n ( x i − x ˉ ) 2
标准差 :方差平方根
以样本方差对标准差进行无偏估计
S
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}
S = n − 1 1 ∑ i = 1 n ( x i − x ˉ ) 2
变异系数 :表示地理数据的相对变化(波动)程度
C
v
=
S
x
ˉ
×
100
%
C_v=\frac{S}{\bar{x}}\times100\%
C v = x ˉ S × 1 0 0 %
2.4.2.3描述地理数据分布特征的参数
偏度系数 :
测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为
g
1
=
∑
i
=
1
n
1
n
(
x
i
−
x
ˉ
σ
)
3
g_{1}=\sum_{i=1}^{n} \frac{1}{n}\left(\frac{x_{i}-\bar{x}}{\sigma}\right)^{3}
g 1 = i = 1 ∑ n n 1 ( σ x i − x ˉ ) 3
g
1
<
0
g_1<0
g 1 < 0 表示负偏,均值在峰值左侧,
g
1
>
0
g_1>0
g 1 > 0 相反,
g
1
=
0
g_1=0
g 1 = 0 ,则峰值与均值重叠,对称分布
峰度系数 :
测度了地理数据在均值附近的集中程度,其计算公式为
g
2
=
∑
i
=
1
n
1
n
(
x
i
−
x
ˉ
σ
)
4
−
3
g_{2}=\sum_{i=1}^{n} \frac{1}{n}\left(\frac{x_{i}-\bar{x}}{\sigma}\right)^{4}-3
g 2 = i = 1 ∑ n n 1 ( σ x i − x ˉ ) 4 − 3 标准正态分布的峰度系数
g
2
=
0
,
g
2
>
0
g_2=0,g_2>0
g 2 = 0 , g 2 > 0 ,表示地理数据分布的集中程度高于正态分布;
g
2
<
0
g_2<0
g 2 < 0 表示地理数据分布的集中程度低于正态分布
2.5正态分布检验与数据转换
2.5.1正态分布
正态分布 :正态分布由两个参数——平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近
f
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}
f ( x ) = 2 π
σ 1 e − 2 σ 2 ( x − μ ) 2
2.5.2检验方法
直方图法 ,直方图只能初步判断数据是否符合正态分布
PP和QQ图
P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。
2.5.3数据转换处理
将原始数据的频数分布,通过一定的尺度转化,转换为另外的频数分布,而正态转化是最为常用的一种
地统计学分析中,分析数据最好接近正态分布,转换方法主要有
2.6异常值的识别与处理
2.6.1异常值
异常值:样品数据中出现概率很小的值,往往在分析前需要剔除。方法:
对于大样本(样本容量大于100)的异常值判断,通常用二倍或三倍标准差法;对于小样本的异常值判断,一般使用 狄克松、格拉布斯和t检验法 。但这三种方法仅适用于用来剔除正态小样本的异常数值,若样本不符合正态分布,则要进行转换。
2.6.2平均值加标准差法
正常数据的上下限等于平均值加二倍标准差,适用于数据分布简单均一的情况:
C
A
=
Z
ˉ
±
2
S
C_A=\bar{Z}\pm2S
C A = Z ˉ ± 2 S
对于数据分布相对复杂的情况,可采用
3
S
3S
3 S 法
C
A
=
Z
ˉ
±
3
S
C_A=\bar{Z}\pm3S
C A = Z ˉ ± 3 S
2.6.3四倍法
某观察数据与该样品平均值的差数(d)大于平均偏差的4倍时视为异常值。其中平均偏差就是所有观察数据与样本平均值之间的差数的平均值。
计算过程 :
怎样确定唯一的可疑值?
看最大值和最小值哪个离平均值最远,
循环过程怎样判断结束标准?
知道没有可疑值,即最大值与最小值均在条件范围内。
2.7相关分析
2.7.1两要素之间相关程度的测定
2.7.1.1相关系数的计算与检验
r
x
y
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
r_{x y}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}}
r x y = ∑ i = 1 n ( x i − x ˉ ) 2
∑ i = 1 n ( y i − y ˉ ) 2
∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ )
说明 :
−
1
≤
r
x
y
≤
1
- 1 \le r_{x y}\le 1
− 1 ≤ r x y ≤ 1 , 大于0时正相关,小于0时负相关。
r
x
y
r_{xy}
r x y 的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。
相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度
2.7.1.2秩相关系数的计算与检验
又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
r
x
y
′
=
1
−
6
∑
i
=
1
n
d
i
2
n
(
n
2
−
1
)
r_{x y}^{\prime}=1-\frac{6 \sum_{i=1}^{n} d_{i}^{2}}{n\left(n^{2}-1\right)}
r x y ′ = 1 − n ( n 2 − 1 ) 6 ∑ i = 1 n d i 2
d
i
d_i
d i 为两变量每一对样本的等级之差
2.7.2多要素间相关程度的测定
2.7.2.1偏相关系数的计算与检验
定义:在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。
有如下相关系数矩阵:
P
=
[
r
11
r
12
r
13
r
14
r
21
r
22
r
23
r
24
r
31
r
32
r
33
r
34
r
41
r
42
r
43
r
44
]
=
[
1
0.416
0.346
0.579
0.416
1
−
0.592
0.950
−
0.346
−
0.592
1
−
0.469
0.579
0.950
−
0.469
1
]
P=\left[\begin{array}{llll}r_{11} & r_{12} & r_{13} & r_{14} \\r_{21} & r_{22} & r_{23} & r_{24} \\r_{31} & r_{32} & r_{33} & r_{34} \\r_{41} & r_{42} & r_{43} & r_{44}\end{array}\right]=\left[\begin{array}{cccc}1 & 0.416 & 0.346 & 0.579 \\0.416 & 1 & -0.592 & 0.950 \\-0.346 & -0.592 & 1 & -0.469 \\0.579 & 0.950 & -0.469 & 1\end{array}\right]
P = ⎣ ⎢ ⎢ ⎡ r 1 1 r 2 1 r 3 1 r 4 1 r 1 2 r 2 2 r 3 2 r 4 2 r 1 3 r 2 3 r 3 3 r 4 3 r 1 4 r 2 4 r 3 4 r 4 4 ⎦ ⎥ ⎥ ⎤ = ⎣ ⎢ ⎢ ⎡ 1 0 . 4 1 6 − 0 . 3 4 6 0 . 5 7 9 0 . 4 1 6 1 − 0 . 5 9 2 0 . 9 5 0 0 . 3 4 6 − 0 . 5 9 2 1 − 0 . 4 6 9 0 . 5 7 9 0 . 9 5 0 − 0 . 4 6 9 1 ⎦ ⎥ ⎥ ⎤ 3个要素的偏相关系数
r
12.3
=
r
12
−
r
13
r
23
(
1
−
r
13
2
)
(
1
−
r
23
2
)
r
13.2
=
r
13
−
r
12
r
23
(
1
−
r
12
2
)
(
1
−
r
23
2
)
r
23.1
=
r
23
−
r
12
r
13
(
1
−
r
12
2
)
(
1
−
r
13
2
)
\begin{array}{l} r_{12.3}=\frac{r_{12}-r_{13} r_{23}}{\sqrt{\left(1-r_{13}^{2}\right)\left(1-r_{23}^{2}\right)}} \\ r_{13.2}=\frac{r_{13}-r_{12} r_{23}}{\sqrt{\left(1-r_{12}^{2}\right)\left(1-r_{23}^{2}\right)}} \\ r_{23.1}=\frac{r_{23}-r_{12} r_{13}}{\sqrt{\left(1-r_{12}^{2}\right)\left(1-r_{13}^{2}\right)}} \end{array}
r 1 2 . 3 = ( 1 − r 1 3 2 ) ( 1 − r 2 3 2 )
r 1 2 − r 1 3 r 2 3 r 1 3 . 2 = ( 1 − r 1 2 2 ) ( 1 − r 2 3 2 )
r 1 3 − r 1 2 r 2 3 r 2 3 . 1 = ( 1 − r 1 2 2 ) ( 1 − r 1 3 2 )
r 2 3 − r 1 2 r 1 3 4个要素的偏相关系数
r
12.34
=
r
12.3
−
r
14.3
r
24.3
(
1
−
r
14.3
2
)
(
1
−
r
24.3
2
)
r
13.24
=
r
13.2
−
r
14.2
r
34.2
(
1
−
r
14.2
2
)
(
1
−
r
34.2
2
)
r
14.23
=
r
14.2
−
r
13.2
r
43.2
(
1
−
r
13.2
2
)
(
1
−
r
43.2
2
)
r
23.14
=
r
23.1
−
r
24.1
r
34.1
(
1
−
r
24.1
2
)
(
1
−
r
34.1
2
)
\begin{array}{l} r_{12.34}=\frac{r_{12.3}-r_{14.3} r_{24.3}}{\sqrt{\left(1-r_{14.3}^{2}\right)\left(1-r_{24.3}^{2}\right)}} \\ r_{13.24}=\frac{r_{13.2}-r_{14.2} r_{34.2}}{\sqrt{\left(1-r_{14.2}^{2}\right)\left(1-r_{34.2}^{2}\right)}} \\ r_{14.23}=\frac{r_{14.2}-r_{13.2} r_{43.2}}{\sqrt{\left(1-r_{13.2}^{2}\right)\left(1-r_{43.2}^{2}\right)}} \\ r_{23.14}=\frac{r_{23.1}-r_{24.1} r_{34.1}}{\sqrt{\left(1-r_{24.1}^{2}\right)\left(1-r_{34.1}^{2}\right)}} \end{array}
r 1 2 . 3 4 = ( 1 − r 1 4 . 3 2 ) ( 1 − r 2 4 . 3 2 )
r 1 2 . 3 − r 1 4 . 3 r 2 4 . 3 r 1 3 . 2 4 = ( 1 − r 1 4 . 2 2 ) ( 1 − r 3 4 . 2 2 )
r 1 3 . 2 − r 1 4 . 2 r 3 4 . 2 r 1 4 . 2 3 = ( 1 − r 1 3 . 2 2 ) ( 1 − r 4 3 . 2 2 )
r 1 4 . 2 − r 1 3 . 2 r 4 3 . 2 r 2 3 . 1 4 = ( 1 − r 2 4 . 1 2 ) ( 1 − r 3 4 . 1 2 )
r 2 3 . 1 − r 2 4 . 1 r 3 4 . 1 性质:
① 偏相关系数分布的范围在-1到1之间; ② 偏相关系数的绝对值越大,表示其偏相关程度越大; ③ 偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即
R
1
⋅
23
≥
∣
r
12
⋅
3
∣
R_{1·23}≥|r_{12·3}|
R 1 ⋅ 2 3 ≥ ∣ r 1 2 ⋅ 3 ∣
2.7.2.2复相关系数的计算与检验
复相关系数:反映几个要素与某一个要素之间的复相关程度
复相关系数的计算:
两个自变量:
R
y
.
12
=
1
−
(
1
−
r
y
1
2
)
(
1
−
r
y
2.1
2
)
R_{y .12}=\sqrt{1-\left(1-r^{2}_{y1}\right)\left(1-r^{2} _{y2.1}\right)}
R y . 1 2 = 1 − ( 1 − r y 1 2 ) ( 1 − r y 2 . 1 2 )
三个自变量:
R
y
,
123
=
1
−
(
1
−
r
2
y
)
(
1
−
r
y
2.1
2
)
(
1
−
r
y
3.12
2
)
R_{y, 123}=\sqrt{1-\left(1-r^{2} y\right)\left(1-r_{y 2.1}^{2}\right)\left(1-r_{y 3.12}^{2}\right)}
R y , 1 2 3 = 1 − ( 1 − r 2 y ) ( 1 − r y 2 . 1 2 ) ( 1 − r y 3 . 1 2 2 )
性质:
① 复相关系数介于0到1之间
② 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关
③ 复相关系数必大于或至少等于单相关系 数的绝对值
2.8回归分析
2.8.1一元线性回归
2.8.2多元线性回归
2.8.3非线性回归
非线性关系线性化