Python地信专题,基于geopandas的空间数据分析!

1 简介

在上一篇文章中我们对 geopandas 中的 数据结构 展开了较为全面的学习,其中涉及到面积长度等计算的过程中提到了具体的计算结果与所选择的 投影坐标系 关系密切, 投影坐标系 选择的不恰当会带来计算结果的偏差,直接关乎整个分析过程的有效与否。

作为 基于geopandas的空间数据分析 系列文章的第二篇,通过本文你将会学习到 geopandas中的 坐标参考系管理 。

2 坐标参考系基础

2.1 CRS

在一个二维的平面中,我们可以使用如图1所示的坐标系统,通过坐标唯一确定点的位置:

图1

现实世界中的地球作为一个球体,当我们想要用同样的方式利用坐标来唯一确定地球球面上的某个位置时,需要一套适应球体形状的坐标系统。

而当我们想要在纸面或电脑屏幕上绘制平面地图时,就又需要有一套将地球球面展平的方法。

上述的这些用于在不同情况下定义对象位置信息的坐标系统,就称为 坐标参考系统 ( Coordinate Reference System ,下文统称 CRS ):

图2

CRS 可细分为 地理坐标系 和 投影坐标系 。

源码案例代码加群:850591259

2.1.1 地理坐标系

以弧度制下度数为单位的 地理坐标系 ( Geographic Coordinate Systems )帮助我们定位物体在地球球面上的具体位置以及绘制球体地图:

图3WGS84地理坐标系示意图

地理坐标系以地表上确定的某一个点为原点,创建了包裹全球的网格,譬如 WGS84 ,将本初子午线与赤道的交点作为原点(图4):

图4 WGS84地理坐标系及其经纬网格

2.1.2 投影坐标系

地理坐标系虽然解决了我们在地球球面上定位的问题,但纬度和经度位置没有使用统一的测量单位。

因为经度不变的情况下,纬度每变化1单位因为是对固定弧长的映射,所以真实距离是固定不变的,纬度变化1度的真实距离恒等于:

可是经度每变化1单位对应的真实距离要随着纬度的变化而变化,经度变化1度的真实距离为:

这就导致我们既不能直接在地理坐标系下精确度量几何对象的长度、面积,也无法直接用地理坐标系在平面上绘制出几何对象真实的形状。

为了解决上述问题,各种各样的 投影坐标系 ( Projected Coordinate Systems )被开发出来(图5,其中右下角为地理坐标系,其余均为投影坐标系):

图5 各种CRS

投影坐标系指的是从将3D球面展平为2D平面的一套数学计算方法,利用它可以优化 形状 、 比例/距离 以及 面积 的失真情况。

但实际情况中没有在整个地球表面都能“三全其美”的 投影坐标系 ,有些 投影坐标系 优化形状上的失真,有些 投影坐标系 优化距离上的失真,有些 投影坐标系 专门针对面积失真进行优化,而有些 投影坐标系 可以对局部区域进行三个方面上的优化。

图6投影坐标系变换过程示意

常用的 投影坐标系 如 横轴墨卡托 ( Universal Transverse Mercator ,简称 UTM ),基于经度将全球等分为编号0-60的区域,且每个区域又进一步细分为南半球区域或北半球区域,譬如图7所示为美国本土跨过的区域:

图7

划分出的每个区域,其原点位于左下角顶点,距离区域中轴线500千米(图8):

图8

针对这样划分出的独立区域利用 墨卡托投影法 创建各自独立的坐标网格,这个过程可以通俗地理解为用圆筒包裹地球球体,从球心发散出的光穿过球体上每个位置点投射到外部圆筒内壁从而完成3D向2D的变换:

图9

当然,这样做的后果是越靠近极点的几何对象被拉伸形变得越严重(图10),这也就是为什么俄罗斯疆域看起来如此庞大的原因:

图10世界各国真实大小与墨卡托投影后差别

2.2 常用CRS格式

通过前文我们了解到什么是 CRS ,而在计算机系统中要使用 CRS ,需要将其文档化,下面我们来了解 CRS 两种常见的文档存储格式。

2.2.1 Proj4

Proj4 字符串是一种识别空间或坐标参考系统的简洁方法,通过其定义的语法规则,将想要定义的 CRS 全部参数信息保存到一条字符串中。

  • Proj4语法

Proj4 字符串包含了一种 CRS 全部元素信息,用 + 连接每个元素定义部分,如下面的例子记录了横轴墨卡托北11区 CRS 对应的 Proj4 字符串:

+proj=utm +zone=11 +datum=WGS84 +units=m +no_defs +ellps=WGS84 +towgs84=0,0,0

它记录了如下信息:

proj=utm:声明投影方法为墨卡托

zone=11:声明对应北11区(因为这里是横轴墨卡托所以拥有独立分区,但并不是所有 CRS 都有分区,且在 Proj4 中区号加S才为南半球分区如11S,否则默认为北半球分区)

datum=WGS84:声明基准面为 WGS84 (基准面是椭球体用来逼近某地区用的,因此各个国家都有各自的基准面。国内常用的基准面有: BEIJING1954 , XIAN1980 , WGS84 等)

units=m:声明坐标系单位设置为米

ellps=WGS84:声明椭球面(如何计算地球的圆度)使用 WGS84

上述例子记录了 投影坐标系 的 Proj4 ,下面我们再来看看 地理坐标系 对应的 Proj4 ,如下例:

+proj=longlat +datum=WGS84 +no_defs +ellps=WGS84 +towgs84=0,0,0

它记录了如下信息:

proj=longlat:声明这是一个 地理坐标系

datum=WGS84:声明基准面为 WGS84

ellps=WGS84:声明椭球面使用 WGS84

与 投影坐标系 相比,没有单位 units 的信息,因为 地理坐标系 通常单位为十进制度数;而上述两个示例中都带有 towgs84=0,0,0 ,这是一个转换因子,在需要进行数据转换时使用。

2.2.2 EPSG编码

EPSG ( European Petroleum Survey Group )编码,使用4或5位数字编码来唯一确定已存在的一种 CRS ,可以在http://spatialreference.org/ref/epsg/中查看和搜索所有已知的 EPSG 与 CRS对应关系(图11):

图11

或在 QGIS 中查看:

图12

譬如对于重庆,因为地跨东经105°11~110°11,中轴线距离108E更近,常用如下投影:

图13

对应的 EPSG 编码为2381。

3 geopandas中的坐标参考系管理

至此,我们已经对 CRS 有了较为全面的了解,打好了基础,接下来我们来正式学习 geopandas 中的坐标参考系管理。

geopandas 调用 pyproj 作为 CRS 管理的后端,因此所有可以被 pyproj.CRS.from_user_input() 接受的合法输入同样可以被 geopandas 识别,譬如针对上文所说的应用于重庆区域绘图的 Xian 1980 / 3-degree Gauss-Kruger CM 108E :

  • Proj4
import pyproj

pyproj.CRS.from_user_input('+proj=tmerc +lat_0=0 +lon_0=108 +k=1 +x_0=500000 +y_0=0 +ellps=IAU76 +units=m +no_defs')

图14

  • EPSG
pyproj.CRS.from_user_input(2381)

图15

直接传入字符串格式的 EPSG 亦可:

图16

查看对应的 Proj4 信息,关键参数与前面 Proj4 一致,只是以 Proj4 形式传入时系统会视作创建未知 CRS 一样,因此相对于官方 CRS 缺少了一些无关紧要的其他信息:

图17

3.1 CRS的设置与再投影

在上一篇文章(数据科学学习手札74)基于geopandas的空间数据分析——数据结构篇中我们介绍了创建 GeoSeries 和 GeoDataFrame 的方法。

实际上,现实的空间分析计算任务中,必须要为数据设置合适的 CRS ,在 geopandas.GeoSeries() 和 geopandas.GeoDataFrame() 中就包含参数 crs 。

下面我们举例说明,还是先用到 geopandas 自带的世界国家地区数据,我们从中选择中国(坚持一个中国,我们将台湾地区组合进国土中):

import geopandas as gpd

world = gpd.read_file(gpd.datasets.get_path('naturalearth_lowres'))
# 利用name字段选择中国区域
china = world.loc[world['name'].isin(['China', 'Taiwan'])]
china

图18

查看其 crs 属性即为其对应 CRS ,为 WGS84 对应的 EPSG:4326 ,在当前的 CRS 下将其绘制出来:

图19

利用 to_crs() 将其再投影到 EPSG:2381 并进行绘制:

图20

通过比较可以发现,再投影之后的中国形变失真情况得到缓解,且坐标系单位范围也发生了变化( EPSG:2381 单位:米),接下来我们参考谷歌地图上点击出的重庆渝中区某地坐标:

图21

基于此创建只包含一个点的 GeoSeries ,尝试将其与 EPSG:2381 下的中国地图一同绘制:

from shapely import geometry
import matplotlib.pyplot as plt

cq = gpd.GeoSeries([geometry.Point([106.561203, 29.558078])],
              crs='EPSG:4326')

fig, ax = plt.subplots()
china.to_crs(crs='EPSG:2381').plot(ax=ax, color='red', alpha=0.8)
cq.plot(ax=ax, color='orange', markersize=100, marker='x')
plt.xticks(rotation=20)

图22

可以看出我们创建在重庆境内的点并没有绘制在正确的位置,接下来我们对 cq 进行再投影,再尝试将其与 EPSG:2381 下的中国绘制在一起:

fig, ax = plt.subplots()
china.to_crs(crs='EPSG:2381').plot(ax=ax, color='red', alpha=0.8)
# 先再投影到EPSG:2381
cq.to_crs(crs='EPSG:2381').plot(ax=ax, color='orange', markersize=100, marker='x')
plt.xticks(rotation=20)

图23

这时我们定义的点被绘制到正确的位置。

同样地,可以在投影后计算更为准确的面积,这里举一个粗糙的例子(实际计算国土面积不会这样粗糙),以中国中轴线东经104.19度最靠近的105度经线对应的 EPSG:2380 为 CRS 计算面积:

图24

如果直接用原来的 ESPG:4326 计算面积结果如下:

图25

可以看出使用 ESPG:2380 计算出的面积比较接近大家记忆中的960万平方公里。

以上就是本文的全部内容,如有笔误之处望斧正!

猜你喜欢

转载自www.cnblogs.com/Py1233/p/12652855.html