【论文阅读】An Interannual Transfer Learning Approach for CropClassification in the Hetao Irrigation 。。。

日期:2022.2

期刊:remote sensing

单位:中国科学院航天信息研究所遥感科学国家重点实验室

题目:​​​​​​​An Interannual Transfer Learning Approach for Crop Classifification in the Hetao Irrigation District, China

Abstract

        作物类型分类对于作物产量估算和优化水分分配至关重要。如果缺乏作物参考数据,尤其是收集中缺少参考数据的目标年份,则生成作物类型数据是一项挑战。是否可以转移一个经过训练的作物类型分类模型来追溯作物类型的历史空间分布?本研究以中国河套灌区为研究区域,首次设计了一个基于谷歌地球引擎(GEE)的10m作物类型分类框架,用于当前季节的作物类型制图。然后,对其准确追溯历史作物分布的年际转移能力进行了测试。该框架使用Sentinel-1\/2数据作为卫星数据源,结合百分位和月度合成方法来生成分类指标,并使用随机森林分类器和300棵树进行作物分类。基于提议的框架,本研究首先绘制了2020年HID的10m作物类型图,总精度(OA)为0.89,然后通过传输2020年无作物参考样本的训练模型,获得了2019年HID 10 m作物类型图(OA为0.92)。结果表明,所设计的框架能够有效识别HID作物类型,并具有良好的可移植性,能够以可接受的精度获得历史作物类型数据。我们的结果发现,SWIR1、Green和Red Edge2是作物分类的前三个反射带。地表水指数(LSWI)、归一化差异水指数(NDWI)和增强植被指数(EVI)是作物分类的前三个植被指数。4月至8月是HID作物类型分类的最合适时间窗口。Sentinel-1信息在训练模型的年际传递中起到了积极作用,将OA从Sentinel-2单独的90.73%增加到Sentinel1和Sentinel2共同的91.58%。

关键词:作物类型分类;随机森林分类器;年际转移;GPS;视频和GIS(GVG);谷歌地球引擎;河套灌区

1. Introduction

        零饥饿是联合国提出的一项关键的可持续发展目标倡议[1]。然而,由于极端天气事件(洪水、干旱等)、新冠肺炎大流行和地方冲突,越来越多的人面临粮食不安全的挑战。2020年,粮食和农业联合国组织(UN-FAO)估计,全世界有7.2亿多人遭受饥饿[2]。准确和早期的作物产量估计对粮食安全形势评估至关重要。高分辨率作物类型图可以为估计作物产量和粮食安全评估提供关键信息[3]。作为最大的淡水消费国,农业现在占全球淡水提取量的70%以上[4]。农业用水的过度使用加速了许多旱地地区的水资源枯竭,导致地下水位下降[5]和湖泊缩小[6]。作物种植结构的优化是减少旱地地区耗水量的可行方法[7,8],但它需要高空间分辨率作物类型数据的支持。

        由于具有中等空间分辨率的免费光学和微波卫星数据的可用性越来越高,出现了用于大地球数据分析的云计算,以及机器学习算法的显著改进,基于监督方法的作物类型分类方法得到了迅速发展。近年来,具有全球覆盖范围和可接受空间分辨率的开放、免费提供的卫星图像,如Sentinel-1[9]、Sentinel-2[10]和Landsat-8[11],以可接受的空间分辨率,为国家、大陆甚至全球范围的作物类型识别提供了强有力的数据支持。大地球数据分析云计算的发展为大规模作物类型分类提供了更强的计算能力,如全球农田范围制图[12]、基于Sentinel-1的欧洲大陆尺度作物类型制图[13]、,比利时国家作物类型制图[14]和中国东北地区区域作物类型制图[15],单独或同时使用Sentinel-1和Sentinel-2。具体而言,谷歌地球引擎(GEE)[16]具有强大的计算能力、丰富的卫星图像和多个分类器,已成为大规模作物类型分类的关键基础设施之一,例如稻谷[17]、冬小麦[18]和玉米[19]的识别以及作物类型的确定[14,15,20]。机器学习具有很强的探索作物独特指标的能力。它被广泛用于土地覆盖制图和作物类型分类,特别是用于随机森林分类器[21],许多以前的研究都采用了这种方法,因为它对样本数量不太敏感[22]。许多基于新卫星的新指数被开发出来,以改进作物类型分类方法对作物的区分。这些包括红边归一化差异植被指数[23]、垂直传输水平接收(VH)和垂直传输垂直接收(VV)比率[24],以及VV和VH之间的差异[25]。一些组织开发了几个基于免费卫星数据和计算技术的自动作物类型分类系统。例如,Sen2Agri,一个由Louvain天主教大学开发的国家作物类型制图自动系统[23],已被用于提取乌克兰[26]、摩洛哥[27]和撒哈拉以南国家[23]等国家的国家尺度作物空间分布。最近,欧空局发起了WorldCereal项目(https://ESA worldgleal.org/en,访问日期:2022年2月20日),旨在开发基于地球观测的全球农田监测系统,用于绘制农田和作物类型图[28]。

        由于云、雨和霾的影响,光学卫星图像生成的特征存在不连续性问题,这大大增加了作物分类的难度。为了克服或解决光学卫星图像中的不连续性问题,已经提出了不同的特征组合,例如中值组合[15,29,30]、百分位组合[19,31,32]和时间插值[3,33]。许多之前的研究表明,中值复合物通常优于平均复合物,因为后者不能反映实际的物理观察结果[33],并且容易受到极值的影响[29]。百分位合成对时间序列的连续性不太敏感,并且易于计算;因此,它们被广泛用于土地覆盖和作物类型制图的度量生成[19,31,32]。简单时间插值使用之前和之后的良好观测值来填充缺失值,对时间序列长度的要求不那么严格,最近被广泛用于重建特征的时间序列[3,29,33]。然而,如果时间序列中缺少太多的值,这种方法将失去填补空白的能力。

        尽管云计算、机器学习和卫星融合算法取得了里程碑式的突破,但现有的监督方法仍然依赖于参考样本。作物参考样本的数量和分布显著影响分类性能。目前,稀疏和不足的地面参考数据仍然是作物类型制图的关键限制因素之一[34]。参考数据的收集是劳动密集型和耗时的[35];欧盟通过土地利用/覆盖面积框架调查(LUCAS)[36]收集了欧盟的大陆原位数据。提高作物参考样本的收集效率和数据共享被认为是克服作物参考样本不足问题的一个好方法。
一些组织开发了许多工具来提高数据收集效率。例如,中国的CropWatch团队设计了基于智能手机的GPS、视频和GIS(GVG)应用程序[37]。GVG显著提高了土地覆盖类型和作物类型参考数据的收集效率。构建在线数据共享平台可以通过共享提高存档参考数据的价值。例如,建立Geo Wiki平台[38,39]是为了通过数据共享改善全球土地覆盖率。Laso等人[40]使用它创建了一个全球农田参考数据库。最近,根据存档的参考数据训练的预测目标年份作物类型的模型已成为增加数据价值的一种新方法。例如,You和Dong[29]使用经过训练的随机森林分类器预测黑龙江省早期的作物类型。这证明了通过传输经过训练的作物类型分类模型来预测作物类型图是一种可行的方法。然而,这种方法很少用于追溯历史作物类型的空间分布,其适用性需要进一步研究。

        河套灌区(HID)是中国重要的粮油种植区[41,42]。HID中的作物类型比例已迅速转变,以追求更高的利润,从而导致显著的虚拟水转移[8]。HID的可持续发展面临一系列问题,包括农业用水过度使用、土壤盐渍化[43]和水污染[44]。农业和生态系统可持续管理之间的水需求迫切需要在HID中得到平衡。优化种植结构以节约生态系统用水被认为是改善HID生态环境的解决方案。然而,优化需要精确的作物类型图的支持[8]。近几十年来,基于拟合归一化植被指数(NDVI)时间序列的序列监督分类方法已成为识别HID中作物类型空间分布的有效方法。例如,Jiang等人[45]提出了植被指数-物候指数(VI–PI)分类器,以基于MODIS NDVI时间序列绘制HID中的作物类型。
Yu等人[41]使用NDVI特征拟合非对称logistic曲线来计算NDVI和物候指标,以分离HID中的玉米和向日葵。
然而,通过这些方法获得的准确度并不好[41]。集成多个分类器是识别HID中作物类型空间分布的另一种有效方法。例如,Wen等人[46]结合三种分类器(随机森林、支持向量机和基于物候的NDVI分类器)确定了HID中多年向日葵、玉米和小麦的空间分布。由于HID中农田面积较小,空间分辨率为30m或更粗分辨率的作物类型图无法满足优化灌溉水调度要求。

        本研究旨在设计高分辨率作物类型制图框架,并测试其在年际转移中的可行性。本研究的目标如下:(1)以可接受的精度确定HID中的10米最新作物类型,(2)通过年际转移测试作物类型识别训练模型的可行性和可靠性。

2. Study Area

        HID位于中国内蒙古自治区巴彦淖尔市南部,是亚洲最大的重力灌溉区[47]。干旱的大陆性季风气候,夏季炎热干燥,冬季寒冷HID[47]导致降雨量不足,年降雨量不足250毫米[48],而潜在蒸发量为2100至2300毫米/年[8]。年平均气温为6-10◦C、 月平均温度范围为−9.58◦1月C至23.72◦C七月[48]。该地区非常平坦,海拔从1007米到1050米[49]。尽管干旱气候主导着HID,但流经HID的黄河为农业发展提供了宝贵的水资源(图1)。一项研究表明,作物播种面积每年增加3.57×103公顷−1[8],这显著增加了耗水量,减少了黄河下游的径流。

         该地区的总可耕地面积约为7330 km2。大部分作物为向日葵、玉米和春小麦[48]。该地区是中国最大的向日葵产区,2021占中国向日葵产量的28%。
图2显示了HID中向日葵、玉米、西葫芦和春小麦的物候期。向日葵和玉米的物候期相同,都在5月播种,9-10月收获。西葫芦在5月种植,8月至9月收割,春小麦在4月播种,7月至8月收割。
在HID中,春小麦NDVI曲线与玉米、向日葵和西葫芦的NDVI曲线显著不同,而玉米、向日葵和西南瓜的NDVI图相似,均在7月中旬达到峰值(图3)。

3. Materials and Methods

3.1. Sentinel-2 Imagery and Processing

        HID中的作物类型分类使用了2020年4月1日至11月1日期间采集的Sentinel-2多规格tral Instrument(MSI)1C级数据集的319个场景。尽管1C级的光谱带表示TOA反射率,没有大气校正,但之前的研究表明,如果训练数据和图像按相同比例分类,则其操作对于作物分类不是强制性的[50]。Sentinel-2 TOA产品广泛用于冬小麦[18]、玉米[50]和水稻鉴定[31]。2020年4月至10月,HID中Sentinel-2 Level-1 C的总观测时间在每个像素21至219次之间,平均观测时间为61.18次,监测期间75%的HID观测了40至60次,表明获得的产品能够为公制复合材料和作物鉴定提供足够的信息。

        这项研究基于QA60波段值去除了被云污染的所有像素。Sentinel-2 Level-1C数据集包含13个大气顶部(TOA)反射率波段,本研究选择蓝色、绿色、红色、红色边缘1(RDED1)、红色边缘2(RDED2)、红色边界3(RDED3)、近红外(NIR)、短波红外1(SWIR1)和短波红外2(SWIR2)进行作物类型分类。此外,本研究还使用了Sentinel-2 Level-1C数据生成的九个相关植被指数进行作物类型识别。它们包括NDVI[51]、增强植被指数(EVI)[52]、地表水指数(LSWI)[53]、归一化差异水指数(NDWI)[P4]、绿色叶绿素植被指数(GCVI)[55]和四个红边相关指数:RDNDVI1、RDNDVI2、,RDGCVI1和RDGCVI2[50]。表1列出了用于作物分类的所有Sentinel-2波段和植被指数。

         NDVI[51]通常用于确定植物的光合能力。EVI[52]有助于区分土壤和低覆盖植被,因为它对大气条件不太敏感。由于叶片水分和土壤水分敏感性较高,LSWI被广泛用于识别水稻[17,56,57]和玉米[58]。NDWI可以有效地描述开阔水域特征,并消除土壤和陆地植被特征的影响。GCVI用于描述植被的光合活性[55]。GCVI使用绿色反射率,与通常基于红色和近红外波段的其他植被指数相比,绿色反射率对冠层氮更为敏感,在检测水稻方面表现良好[31]。RDNDVI广泛用于估算冠层叶绿素和氮含量[59]以及作物分类[15]。

3.2. Sentinel-1 SAR Data and Processing

        本研究总共使用了GEE中存档的206个Sentinel-1双极化C波段SAR仪器图像场景,作为作物类型分类中VV(单共极化,垂直发射/垂直接收)和VH(双波段交叉极化,垂直发送/水平接收)波段的Sentinel-1SAR地面距离检测(GRD)数据集。所有Sentinel-1 SAR GRD数据都经过了热噪声去除、辐射校准和地形校正的预处理。Zhang等人[31]指出,具有不同入射角的重叠区域会在时间序列中产生噪声,因此本研究删除了具有高入射角的叠加区域中的数据(图4)。为了减少SAR数据中的斑点噪声,我们采用了改进的Lee滤波器(RLF)方法[60]对SAR图像进行滤波。

3.3. Topographic Data and Reference Crop Sample Data Collection

        海拔、坡度和坡向会影响作物的种植[31]。因此,从空间分辨率为90 m的航天飞机雷达地形任务(SRTM)数字高程数据集中提取高程和高程衍生变量(坡度和坡向)的相关信息,作为作物识别分类器的指标。2019年,GVG应用程序共收集了3741个样本,其中向日葵、玉米、春季的数量小麦、西葫芦和其他品种分别为1122、685、246、380和1308。2020年,GVG应用程序收集了5225个有效参考样品,其中向日葵、玉米、春小麦、西葫芦等的数量分别为2316、1234、163、288和1224。2019年和2020年采集的GVG工具和样本如图5所示。每个地理标记样本的信息包括纬度、经度、作物类型名称和采集时间。GVG应用程序是由中国科学院开发的“GPS视频GIS”集成参考数据采集系统,用于高效收集地理标签照片[61]。用户可以从以下网站下载最新的GVG应用程序:https://gvgserver.cropwatch.com。cn/download(访问日期:2022年2月20日)。GVG应用程序提供三种参考数据收集方法:沿路移动数据收集、固定位置照片收集和移动拖放收集。

3.4. Methodology

        图6显示了HID中作物类型分类的年际转移学习框架。该框架使用所有可用的Sentinel-2 1C级和Sentinel-1 SAR GRD图像对HID中的作物进行分类。该框架有三个组成部分:量度生成(第一个)、2020年作物分类分类器培训(第二个)和2019年作物分类的分类器转移(第三个)。在第一个组成部分中,Sentinel-2数据首先在第一个构成部分中进行无云处理,然后由百分位组合生成反射率和植被指数度量。Sentinel-1数据由重叠区域中的高角度图像去除模块和精李滤波器(RLF)。然后,VV和VH指标由百分位数和月度中值合成生成。月度VV和VH指标是通过月度中值合成生成的,因为它对异常值的敏感度低于最大、最小或平均组合[62]。SRTM数据中的高程、坡度和纵横比指标被整合到指标中。在第二个组成部分中,第一个组成部分生成的所有指标都用作RF分类器的输入特征,以在2020年建立作物类型分类模型,然后用于确定2020年作物类型的空间分布。通过OA、PA、US和F1分数评估绩效。许多先前的研究表明,RF分类器在作物类型分类中的鲁棒性。在第三个组成部分中,2020年经过培训的分类器被转移到2019年,然后在2019年使用第一个组成部分生成的指标作为输入来生产作物类型。最后,通过2019年的作物参考样本评估了性能。

3.4.1. Metric Composites

        由于多雨和多云天气,光学遥感时间序列数据中存在缺失值,这增加了作物分类的难度[33]。本研究采用百分位数法生成分类指标,以减少数据缺失的影响。百分位组合为收集的每个输入特征创建一个直方图,然后根据指定的百分位计算特定指标[63]。百分位组合对数据集的长度和不完整性不太敏感[19]。它被认为是克服缺失数据对分类模型训练影响的有效方法。一般来说,同一作物在不同年份种植,物候信息不同,增加了分类器转移的不稳定性;然而,百分位组合对物候变化不太敏感。这也是本研究选择百分位复合材料的另一个原因。目前,百分位组合广泛用于森林植被[64]、水稻[31]、玉米[19]、作物[15]和土地覆盖[65]的分类。对于Sentinel-2数据,通过百分位组合,从9个反射带(B2、B3、B4、B5、B6、B7、B8、B11和B12)和9个植被指数(NDVI、NDWI、LSWI、GCVI、RD NDVI1、RDNDVI2、RDGCVI1、RD GCVI2和EVI)生成90个指标,百分位设置为5%、25%、50%、75%和95%。对于Sentinel-1 SAR数据,通过5%、25%、50%、75%和95%以及14个月SAR的百分位复合获得了10个SAR指标(VHP5、VHP25、VHP50、VHP75、VHP95、VVP5、VVP25、VVP50、VVP75和VVP95)中位数合成生成了度量(VVMON4、VVMON5、VVMON6、VVMON7、VVMON 8、VWMON9、VWMON 10、VHMON4、VHMON 5、VHMON2、VHMON1、VHMONN7、VHMONO 8、VHMONR9和VHMON1)。表2列出了Sentinel1/2中总共114个指标。此外,高程、坡度和坡向被用作参与作物分类建模的指标。

3.4.2. Training and Validation Dataset Preparation

        分类器的性能和作物类型的分类精度受类别不平衡的影响[22]。在主要类别占主导地位的区域内,使用随机抽样预测稀有类别[63]。本研究采用两个步骤来准备训练和验证样本,以避免对主要作物的训练样本进行过采样和对稀有作物进行欠采样。首先,根据样本属性将所有作物参考样本分为向日葵、玉米、春小麦、西葫芦和其他作物组;然后,每组以4:1的比例被分成训练和验证样本。2020年基于该策略,用于分类器训练和结果验证的作物参考样本数分别为4179和1046。在训练组中,玉米、向日葵、春小麦、西葫芦等的数量分别为987、1853、130、230和979。在验证组中,玉米、向日葵、春小麦、西葫芦等的数量分别为247、463、33、58和245。

3.4.3. Classififier: Random Forest

        随机森林(RF)分类器[21]是树预测器的组合,树袋装用于搜索输入特征集中的随机子空间,以构建相互独立的决策树。RF分类器可以有效地处理许多输入指标,并提供比传统分类器更快、更可靠的分类结果,而不会显著增加计算工作量[21,66]。此外,RF分类器对样本的数量、质量和不平衡不太敏感[22]。因此,RF分类器广泛用于作物识别[29,67]和土地覆盖分类[63,66]。
Python中的Scikit学习包用于确定应用的RF分类器的最佳参数。RF中的每棵树都是基于随机观测样本进行拟合的,通常是原始数据的自举样本或子样本。使用未包含在各自引导样本中的树的预测值,计算每个平均误差值的袋外(OOB)误差[68]。这种方法允许在培训过程中安装和验证RF分类器。经常使用OOB错误评估RF的预测性能。在GEE中,RF分类器被命名为“smileRandomForest”,“explain”函数确定作物类型分类指标的权重。

3.4.4. Model Transfer Scenario and Performance Assessment

        通过传输实现经过训练的作物分类模型有两个步骤。第一步是建立2020年作物类型分类模型(CTC2020),第二步是使用该模型通过转移识别2019年的作物类型。在构建CTC2020时,以下步骤用于确定分类的最佳度量组合。
        首先,2020年的Sentinel-1\/2遥感图像分为五个时间段:4月-5月、4月-6月、4月份-7月、4–8月和4月-9月。
        其次,2020年这五个时间段的分类指标是使用第3.1节中介绍的百分位和月度中值组合生成的。
        第三,使用第3.2节中介绍的方法优化随机森林参数,并使用训练样本及其相关度量对分类器进行训练。
        第四,生成2020年作物类型的空间分布,并使用验证样本评估分类精度。第一步中引入的具有最高总体精度(OA)的时段被认为是作物分类的最佳时段。
        获得作物类型分类的最佳分类器后,将其转换为确定2019年作物类型的空间分布。2019年最佳时期的哨兵指标输入CTC2020,以生成HID中的2019年作物类型。2019年的参考样本用于评估分类器传输的性能。

3.4.5. Accuracy Assessment Indicators ​​​​​​​

        在本研究中,使用混淆矩阵评估每种作物的作物分类结果的准确性和作物转移模型的可行性。采用用户准确度(UA)、生产者准确度(PA)、OA和F1分数[69](UA和PA的调和平均值[70])来评估分类性能。四个指数的详细信息使用以下公式进行计算。

         其中Xij是混淆矩阵第i行和第j列中的观察值,Ai是第i个分类类别。具体来说,Xij表示最初属于Ai类但被错误分类为Aj类的图像的数量。

猜你喜欢

转载自blog.csdn.net/m0_45447650/article/details/127199154