INTERNATIONAL JOURNAL OF GEOGRAPHICAL INFORMATION SCIENCE, 2017
1 Intro
- 在现代社会中,手机通常可以被视为是每个人的代理(proxy)
- 在手机使用过程中被动收集的时间戳,和带有位置的信息,通常可以帮助提升对个体mobility 的理解(比如通话记录 CDR,call detail record)
- 这种数据可以帮助理解:
- 个体mobility和社交网络之间的关系
- 人类活动区域的种族差异
- 去公共设置的估计通行时间
- 不同人口的空间分布和时间动态关系
- 人口的社会经济水平
- 。。。
- 这种数据可以帮助理解:
- 但是,基于CDR数据研究人类mobility会遇到很多的挑战
- 1)CDR数据并不能代表所有的人口
- 因为并不是每个人都使用手机的
- 2)手机使用者的通话习惯可能和他自身的习惯、工作等因素相关
- 3)一些政策可能会影响手机使用的地点和位置
- ——>他们会影响从CDR数据中得到的结果的准确性,带来时间、空间和社会经济方面的偏差
- 1)CDR数据并不能代表所有的人口
- 其中,一个很重要的挑战是CDR数据的空间偏差
- CDR数据的空间准确性依赖于手机基站的空间分布,但是手机基站并不是均匀分布的
- 近些年,一些空间插值的方法被提出,但是他们并没有考虑一些影响人口mobility的因素(如环境因素和社会因素)
- ——>这篇论文将社会结构和人类行为也考虑进CDR数据的空间插值中
- 这篇论文应用人口测绘研究中众所周知的测密插值(dasymetric interpolation)方法。其贡献是:
- 为手机数据的基于多时间多功能的密度度量 (MFD) 插值方法提出一个通用的概念框架
- 实证研究所提出的方法如何以及在多大程度上改善了从手机数据中得出的夜间和白天人口分布。
- 在此过程中,论文还通过结合空间、时间和体积映射技术,同时将基于功能的人口分配与手机数据相结合,为密度分布人口建模做出了贡献。
- 这是首次全面应用密度测量技术插值手机数据。
2 background
2.1 手机数据的空间视角
- CDR数据的空间精准度是由基站的位置决定的
- 每个手机的地理位置被分配给提供网络信号的那个基站
- ——>数据的精准程度和手机信号基站的覆盖范围相关,而信号基站并不是均匀分布的
- CDR 数据进一步使用不同的技术分配给离散的区域多边形。
- 最常见的是,给定对应的基站位置,将CDR数据分配至预定义的空间单元(例如行政区划)
- 传统的等值线映射(choropleth mapping)允许将手机数据与给定空间划分中的其他属性数据进行集成和验证。
- 然而,等值线映射忽略了以下事实:
- (1)基站的空间分布不依赖于预定义的空间单元——一个行政单元可能没有或有很多基站;
- (2) 覆盖区域和预定义空间单元的空间划分并不完全一致——位于一个预定义空间内的基站可能会向其他预定义单元部分(或全部)提供移动网络信号
- 另一种方法是使用Voronoi嵌入(Voronoi tessellation)技术,将CDR数据和 基站的理论覆盖范围(一个多边形)对应
- 这样,CDR数据可以分配到指示基站覆盖区域的空间单元。
- 与以前的方法相比,Voronoi tessellation提供了更准确的空间分布
- 然而,由此产生的空间划分与其他现有的行政空间划分不兼容,因此不允许与其他空间划分的数据进行数据整合或验证。
- 最常见的是,给定对应的基站位置,将CDR数据分配至预定义的空间单元(例如行政区划)
- Voronoi嵌入中的弱点可以通过应用直接的区域加权空间插值技术来克服
- 预定义的空间单元及其属性被插入到基站的覆盖区域中(或者相反地,覆盖区域的空间划分及其属性通过区域交集简单地插值到所需的空间单元中)
- ——》 然而,这种方法假设手机数据作为人的代表在一个平面上均匀分布,而不考虑时间、环境背景、社会结构等在空间和时间上对人口流动的影响、
2.2 密度差值和时间整合
- 鉴于广泛使用的密度测绘(dasymetric mapping)的可行性和可靠性,密度插值技术是改进人口数据空间分辨率的最佳方法之一
- 一般来说,密度空间插值技术使用额外的辅助数据源将人口数据从一组空间单位(源区)转换到另一组空间单位(目标区)
- 这些辅助数据可以直接或间接地与人们的空间分布相关,以协助插值。
- 物理环境(土地利用、土地覆盖和地带数据)信息被广泛用于从大部分无人居住的区域中提取有人居住的区域,并根据选定的属性进一步进行空间加权
- 密度测绘中考虑的其他辅助变量包括邮寄信息、企业地址、道路网络临近情况、交通量、POI、夜间图像、具有垂直和体积信息的建筑信息等
- 这些辅助数据可以直接或间接地与人们的空间分布相关,以协助插值。
- 作者认为,这些先进的分区插值方法并没有考虑建筑环境的垂直性。在城市化社会中,建筑环境的垂直维度和容积数据是决定人口空间分布的两个基本环境属性。
-
——>作者提出了一个基于CDR数据的MFD插值的概念框架,考虑了建筑环境的垂直性。这可以获得更准确的空间-时间流动信息
- 一般来说,密度空间插值技术使用额外的辅助数据源将人口数据从一组空间单位(源区)转换到另一组空间单位(目标区)
3 CDR数据插值的框架
- 论文提出了一种通用的MFD插值方法
- 将每个覆盖区域内的移动电话数据分解
- 使用不同的空间和时间敏感的辅助数据源将移动电话数据聚合到所需的空间划分(目标区域)中
- 最少需要三个辅助数据源——具有土地覆盖数据的空间图层、建筑环境的体积(高度)和时间相关的人类活动数据。
MFD插值方法的表示——
- (a)——基站级别的基于点的移动电话数据
- (b)——通常被分配到基站的理论覆盖区域作为源区域
- (c)——使用简单的面积加权方法,插值到目标区域
- (d)——论文提出的MFD方法使用的辅助数据
- (e)——在源区域内分解移动电话数据,将其转换为所需的目标区域
- 通常,移动电话数据的MFD插值方法有五个建模步骤(图2):
- (I)准备物理表面层;
- (II)通过源区域(即基站的覆盖区域)和目标区域层对物理表面层进行空间分解
- (III)将时间相关的人类活动数据与分解的物理表面层集成;
- (IV)将移动电话数据与分解的物理表面层集成
- (V)将分解的表面层空间聚合到所需的目标区域中,作为MFD方法的输出。
- 在MFD方法中,根据任何研究需求,可以使用任何所需的空间划分作为目标区域——统计网格单元(上图)、人口普查区、行政单位、交通分析区或任何其他空间划分
3.1 物理表面层
- (1)纵向维度被纳入
- 纵向维度至关重要,因为建筑环境的垂直性决定了人口密度,而最好的指标是建筑物的总楼层数
- 输入数据可以是建筑物总楼层面积(m2)或体积(m3)等现成数据,也可以从建筑物的平面图和高度估计出来。
- (2)分配一个功能属性,可以将其与人类活动数据相关联。
- 将时间内各种活动类型的人类存在与物理表面层联系起来
- 应用六种活动功能类型——住宅、工作和学校、零售和服务、交通、限制区域和其他区域(因为这些类型具有明显的时间使用模式)
- 物理表面层中的每个空间单元都包括三个属性:
- 活动功能类型a;
- 表面单元类型(建筑物; 非建筑物)u;
- 垂直维度(楼层数; 高度)。
3.2 空间分解
- 在MFD方法的第二步中,除了物理表面层之外,还应用了两个空间层 -
- 移动电话数据的空间划分作为源区域
- 移动电话数据的空间划分通常由使用Voronoi镶嵌方法,描述基站的理论覆盖区域
- 所需空间单元的空间划分作为目标区域。
- 根据研究需要,应用所需的目标区域的空间划分。
- 移动电话数据的空间划分作为源区域
- 采用几何合并技术对这三个空间层进行处理
- 将物理表面层分解成子单元,以指定每个子单元的唯一源区域 j 和目标区域 z。
- 计算每个分解子单元多边形的面积
- 将该面积乘以有关楼层数或高度的垂直维度,可以计算出每个空间子单元 s 的估计总楼面面积 FA
- 对于非建筑单元,楼层数或高度垂直维度的默认值均为1。
- 计算给定基站 源区域j 中所有子单元的估计总楼面面积 FA 的总和,以计算每个子单元 s 的相对楼面面积 RFA
- 经过空间分解后,物理表面层中的每个已分解子单元都具有三个附加属性:
- 源区域 ID
- 目标区域 ID
- 相对楼层面积 RFA
- 用于表示该子单元在所属基站的覆盖范围内的相对楼层面积。
3.3 将时间相关的人类活动数据与分解的物理表面层集成
- 基于空间子单元的活动功能类型,将离散化的物理表面层与时变的人类活动数据进行关联。
- 该关联允许在考虑人类活动类型概率的同时,在每个基站覆盖区内更准确地插值移动电话数据。
- 对于每个基站源区域 j 内的每个离散化空间子单元 s,根据其 RFA 和时间依赖的人类存在概率,计算出时间单位 t 内的估计人类存在值 EHP。
- 其中人类存在概率是根据 活动功能类型 a 和空间单元类型 u(3.1中涉及)决定的的日常小时因子 H、工作日因子 W 和季节性因子 M 的组合。
- 在每个时间单位 t 中,基站 j 内离散化空间子单元的 EHP 总和为
3.4 整合手机数据
- 移动电话数据通过基站j(源区域)与物理空间层中的空间子单元相链接,并根据给定时间单位t的EHP将其分解至每个空间子单元。
- 虽然移动电话数据被认为是人口映射的代理,但建议将移动电话数据标准化,以代表研究区域内的相对人口分布。
- 因此,研究区域S在时间单位t内所有移动电话数据(MP)所占的相对份额(RMP)之和为1。
- 每个基站j的RMP是根据在给定时间单位t内在研究区域S内进行的所有移动电话数据MP计算得出的,计算公式如下:
- 然后,将每个基站j在时间单位t内的标准化移动电话数据插值到给定基站j的覆盖区域内的细分空间子单元s中。
3.5 target zone 聚合
将属于一个target zone的空间子单元聚合
4 实验
Python代码:Multi-temporal function-based dasymetric interpolation tool for mobile phone data | Zenodo
4.1 数据集
- 选择爱沙尼亚首都塔林作为案例研究区域,以经验证明所提出的MFD方法的可行性。
- 调查了2015年3月的1个月的移动电话数据,并将其与为案例研究区域提供移动网络信号的290个基站进行了关联。
- 应用了三种不同的随机移动电话数据集,包括:
- (1)工作日(星期一至星期五)晚上(凌晨2点至6点)的原始CDR数据;(
- (2)工作日白天(下午4点至5点)的原始CDR数据
- (3)使用锚点方法从CDR数据中推导出移动电话用户最有可能的家庭位置。
除了移动电话数据(源区)外,我们还应用了来自六个数据源的五个不同的辅助数据集
4.2 结果
4.2.1 不同活动功能类型下的人口分布
- 总的来说,论文所提出的MFD插值方法按活动功能类型细化由手机数据推导出的夜间人口分布要比面积加权(AW)明显更好(图4)。
- 对于夜间人口分布的情况,根据全国时间利用调查,大约94%的人在家。相比之下,所提出的MFD方法将86%的夜间通话活动推导出的人口重新分配到居住区,而面积加权的分配份额仅为22%。
- 对于夜间的睡眠人口分布,我们可以认为100%的人口登记数据显示居住区内有睡眠人口。MFD方法将100%的家庭锚点重新分配到居住区,而AW方法的分配份额仅为24%。
- 在白天(例如下午4点到5点),两种插值方法按活动功能类型的人口分布不太明显,尽管MFD方法的人口分布更符合全国时间利用调查。
4.2.2 夜晚目标区域的人口分布
4.2.3 人口分布差值的评估
- 表2总结了MFD方法和简单的AW方法对基于移动电话的人口分布进行细化的统计比较结果