【论文阅读】Deep Neural Networks and Transfer Learning forFood Crop Identification in UAV Images

期刊:drones

日期:2020.4
单位:RTI International, Research Triangle Park

目录

Abstract

1. Introduction

1.1. Background and Motivation

1.2. Related Works

1.3. Our Approach

2. Materials and Methods

2.1. Study Area

2.2. Data Collection

扫描二维码关注公众号,回复: 14650148 查看本文章

2.3. Data Labeling

2.4. Data Description

2.5. Agricultural Classifification Model

3. Results

4. Discussion

4.1. Study Limitations

4.2. Future Research


Abstract

        准确预测季节性农业产量对于改善粮食安全至关重要。然而,通过季节性农业调查收集农业信息往往不够及时,无法向公共和私人利益攸关方通报种植季节的作物状况。在以小农农场为主的国家,由于小地块数量多、间作强度大、作物类型多样性高,及时准确地获得作物估计数可能特别困难。在本研究中,我们使用从卢旺达境内飞行的无人机(UAV)收集的RGB图像开发了一种深度学习算法,用于识别作物类型,特别是香蕉、玉米和豆类,这些作物是卢旺达农业中的关键战略粮食作物。该模型利用了深度卷积神经网络和传递学习的进步,采用VGG16架构和可公开访问的ImageNet数据集进行预训练。所开发的模型的总体测试集F1为0.86,各个等级从0.49(豆类)到0.96(香蕉)不等。我们的研究结果表明,尽管香蕉和玉米等某些主食作物可以按照这个尺度进行高精度分类,但间作作物(豆类)可能难以一致识别。我们讨论了所开发模型的潜在用例,并建议了该领域未来研究的方向。

关键词:遥感;作物分析;作物制图;无人机;机器学习;卷积神经网络;深度学习;小农制度

1. Introduction

1.1. Background and Motivation

        为日益增长的全球人口实现粮食安全,需要在地方能力、市场建设和技术方面取得重大进展。近期改善粮食安全的一个重要组成部分是更好地了解季节性农业生产信息,在生长季节尽早提供,并随着条件的变化而更新[1]。例如,及时获得按地区划分的作物进展信息,可以帮助收获、加工和销售作物的物流。确定农业种植延迟或作物发展落后于计划的地区,有助于为资源分配提供信息,并为缓解这些地区的粮食不安全状况做好准备[2]。然而,在世界许多地区,农业数据缺乏准确性、集中性、结构性和一致性,农民和政府利益相关者无法及时做出决策[3]。

        小农户农场是东南亚和撒哈拉以南非洲传统粮食不安全地区的主要农业系统,尤其缺乏准确和及时的数据[4,5]。小农制度不仅是世界上最常见的农业形式,约占世界农业面积的75%[4],而且它们还生产生活在其种植地区的人们所消费的大部分粮食[6]。例如,据估计,撒哈拉以南非洲地区人们消耗的食物热量的50%来自面积小于5公顷的区域农场[5]。尽管小农制度在解决粮食安全问题上很重要,但作物生产力等重要指标往往得不到很好的衡量,国家以下一级或实地一级的数据往往不可用[7]。使这一问题复杂化的是,撒哈拉以南非洲等地区的小农种植密集的间作,多种不同的作物类型在附近种植[7-9],不同地区的种植作物分布差异很大[8]。

        卫星和无人飞行器(UAV)的遥感可以增强地面调查,提高农业信息的准确性和及时性[10]。现代公共支持的卫星,如欧洲航天局运营的Sentinel系列,提供广域覆盖(100公里×100公里图像块),重访频率为几天,但它们的图像分辨率有限(地面分辨率为10至20米,取决于波段)[11]。UAV可以通过提供分辨率更高的地理参考图像来支持基于卫星的作物分析[12]。UAV图像分析已用于提供当地作物类型的信息[13],并创建地面实况数据集,用于卫星模型的训练[14]。
由于高分辨率,作物识别不仅对大型单作农田有效,而且对上述小农农业系统有效。

        在本案例研究中,我们使用从卢旺达境内飞行的无人机收集的图像,开发了一种用于识别粮食作物类型的深度学习算法。我们重点关注香蕉、玉米和豆类,它们是卢旺达粮食安全的关键。虽然文献中使用无人机进行小农农业的大多数工作都侧重于单一作物类型(见下文相关工作),但本研究模拟了六种常见的土地覆盖类型,以帮助更好地理解为东非小农系统绘制更全面、高分辨率作物地图的可行性。我们的目标是更好地理解无人机农业分类方法在与工业农业中普遍采用的大型单作田截然不同的环境中的前景和挑战。

1.2. Related Works

        文献中针对小农系统的大多数遥感应用都依赖卫星数据对作物进行分类。对于东非,Jin等人[8]使用来自Sentinel-1和Sentinel-2的多光谱图像来训练玉米分类器,并估计肯尼亚和坦桑尼亚的作物产量。使用随机森林模型,他们能够将10m×10m地面面积的卫星像素分类为“玉米”或“非玉米”,坦桑尼亚的准确率为79%,肯尼亚为63%。同样,Jin等人[9]为肯尼亚开发了一个三级随机森林模型,由(1)玉米作物、(2)其他作物和(3)非作物组成,总体测试集精度为80%。
        虽然关于无人机用于精确农业的文献通常很多[15,16],但使用无人机研究小农系统中的作物仍然有限。Yang等人[17]结合无人机飞行捕获的光谱特征、数字表面模型和纹理分析,识别台湾嘉义县的水稻倒伏。使用决策树分类器,他们能够获得96%的准确率,同时还演示了其他图像处理步骤,这些步骤可以帮助最小化委托误差。Jiang等人[18]使用带有Lab颜色变换的尺度空间过滤算法开发了木瓜树检测模型。利用中国广东省木瓜农场无人机飞行训练的图像,他们的模型能够检测到F1得分为0.94的木瓜树。Nhamo等人[19]使用卫星建模和UAV后处理校正相结合的方法检测南非的灌溉区域。与单独使用卫星数据相比,该无人机后处理校正的精度大幅提高(从71%提高到96%),提供了不同图像来源如何提供互补优势的示例。Hall等人[20]的研究与我们的研究目标最为相似,他们在无人机图像上使用基于对象的图像分析(OBIA)图像分类方法对加纳小农农场的玉米进行分类。使用RGB和近红外(NIR)波段,他们发现对单个图像和镶嵌图像的分类精度都在94%以上。

1.3. Our Approach

        本研究的目的是演示一种分类算法,用于在无人机采集的RGB图像中识别选定的作物和其他类型的土地覆盖。在本文中,我们利用深卷积神经网络(CNN)[21]的进展来识别无人机图像中选定的作物类型。由于CNN能够有效地捕获图像中的本地和全球模式,因此,CNN已经推进了可获得高分辨率图像的几个遥感领域,包括高光谱图像分析[22-24]、利用合成孔径雷达图像进行地形表面分类[25-27]和三维重建[28,29]。特别是,CNN正在成为场景分类的既定方法[30–34],这项任务的目标是将整个图像分配到几个不同的语义类中的一个。由于这与我们将代表小面积(地面约5m×5m)的无人机图像分类到卢旺达农业相关类的目标类似,因此我们采用CNN和转移学习作为此项工作的建模方法。虽然文献中用于识别作物的场景分类很少(一个显著的例外情况见[35]),与基于更细粒度监督分割的模型相比,该方法具有两个操作优势:(1)标记图像比在感兴趣区域周围创建边界多边形(尤其是在存在间作的情况下)更直观,耗时更少;(2)为图像识别任务设计的CNN计算成本显著降低,资源受限环境中的优势。

2. Materials and Methods

2.1. Study Area

        这项工作的广泛研究领域是卢旺达。农业在卢旺达经济中发挥着重要作用,预计2017年占该国国内生产总值的30.9%,占该国劳动力的75.3%[36]。卢旺达的农田通常很小(<1公顷),间作作物很多[37];主要农作物包括玉米、豆类、香蕉、木薯、土豆和红薯。卢旺达有两个主要的种植季节:A季从9月延长到2月,B季从3月延长到6月[38]。农业季节的开始和结束可能会波动,这取决于作物类型、地区和降雨量。
        表1显示了进行六次无人机飞行的地区的每种感兴趣作物占用耕地的百分比(完整列表和类别描述见第2.4节)。每种作物类型的耕地百分比根据2019A季节性农业调查[38]确定,并因地区而异。提供了进行无人机飞行的地区以及全国的百分比,以供参考。其他标记类别(森林、结构和其他)不属于耕地,也不在调查的地区层面进行描述。就卢旺达全国而言,11%是森林和林地(不包括国家公园),2.2%是城市地区或农村居民点。

2.2. Data Collection

        为了开发训练数据,国内服务提供商Charis无人空中解决方案使用eBee Plus UAV(senseFly SA,瑞士洛桑河畔车赛)捕获UAV图像(图1)。eBee Plus配备了基于实时运动学和后处理运动学技术的GPS校正系统,使得无人机可以对采集的图像进行地理参考,测量等级精度为10 cm,而无需地面控制点[39]。该无人机配备了senseFly S.O.D.a.相机(瑞士洛桑市Cheseaux sur Lausanne的senseFly-SA),专门用于无人机应用。这款小巧、超轻且完全可配置的摄像头,内置防尘和防震功能,配有2000万像素RGB传感器[40]。飞行计划由Charis制定,以尽可能获得地面分辨率为3 cm的图像;要达到这一分辨率,无人机必须在地面以上122米的高度飞行。

         为了获得训练数据,选择了无人机飞行场地,以代表农业生态区和种植做法的多样性(间作和单作)(图2)。航班覆盖每个地点约80公顷的土地,覆盖综合土地利用区(相对较大的单作区)(卢旺达的综合土地利用地区需要参与的农民通过合作社与邻近农民巩固其生产的某些方面。
他们同意种植农业和动物资源部确定的单一优先作物,同时保留各自地块的所有权。)以及更小的间作农田。生成的地理参考RGB图像的目标分辨率为3 cm,但由于地形限制需要不同的飞行高度,实际分辨率有所不同。

2.3. Data Labeling

        传统上,作物标记过程需要使用带有GPS定位捕获功能的电子测量仪器访问农业地区。虽然费力,但这项工作往往是必需的,因为利用卫星图像很难或不可能目视识别作物类型。然而,考虑到我们的无人机图像的高分辨率,我们能够使用基于网络的系统以大大减少的工作量远程标记作物。该查看器使用ESRI的地理信息系统平台构建,旨在同时支持多个用户,跟踪用户和所有收集标签的输入日期。查看器中提供了支持通过点位置和多边形轮廓捕获标签的工具。对于用户添加的每个点或多边形,都提供了一个预配置的属性选项菜单。多边形描绘主要用于捕捉大型单作区,其中的点是随机采样的,以保持与直接点观测一致。为了确保质量,一位当地卢旺达农业专家在观众面前对农作物进行了初步标记,并远程监督了一个由三名独立标记员组成的团队。
        为了在分类模型中使用,使用ArcGIS将查看器中收集的作物实例进一步处理为离散图像,标记点位于新图像的中心。导出的PNG图像为200×200像素,每个像素代表2.5 cm,以保持原始UAV图像的分辨率。在训练分类模型之前,我们的国内农业专家对最终图像进行了质量检查。

2.4. Data Description

        我们的最终数据集由六个不同的类别组成:香蕉、玉米、豆类、森林、结构,以及一个包罗万象的“其他”类别(图3)。每幅图像都标有六类中的一类,在地面上约占5 m2。三个农业类别(香蕉、玉米和豆类)是被选为代表对卢旺达生计既普遍又重要的优先粮食安全作物[41,42]。卢旺达农村常见的土地覆盖类型被列为额外类别(森林和结构)。如果同一图像中存在多个类别,则要求贴标者为占据图像大部分的类别贴标签;这一选择的含义在“讨论”部分中进一步展开。

         标记后,图像被随机分为建模训练集(80.0%)和模型评估测试集(20.0%)。对训练集和测试集的抽样进行分层,以保持全标记数据集中的类比率。表2分别描述了对训练集和测试集有贡献的每个班级的数量。总体而言,代表性最强的类别是玉米(32.2%)、香蕉(25.8%)和森林(19.7%),而其他类别(11.6%)、豆类(5.6%)和结构类(5.1%)所占份额相对较小。

         对于建模,为训练和测试图像中的每个像素提取RGB值。使用Python Imaging Library提取每个图像中每个像素的RGB值,并将其大小从200像素×200像素调整为150像素×150像素,以匹配本文中概述的模型体系结构的预处理步骤。未对RGB值进行辐射校正,为算法开发做准备。在文献中,深度学习模型使用高分辨率卫星或无人机图像进行基于斑块的分类往往不包括辐射校正[30,32–34],这可能是因为算法依赖于局部对比模式(例如边缘),而不是直接的像素级颜色比较进行分析。此外,越来越多的证据表明,增加训练数据图像中的变化和失真(一种称为数据增强的做法)往往有助于深度学习模型提高性能[43]。

2.5. Agricultural Classifification Model

        在这项研究中,我们使用机器学习方法来区分至少包含六个目标类别中一个的UAV图像。具体来说,我们使用了深度神经网络(DNN),这是一种人工神经网络,它包括输入(即图像)和输出(即输入图像的分类标签)之间的几个连锁处理层。每个处理层相当于一个数学函数,该函数将前一层的张量(即n维矩阵)作为输入,对其进行变换,然后输出一个新的张量。在深度学习研究中,通常使用各种类型的层。例如,卷积层通过卷积矩阵运算创建其输入的汇总特征张量(即激活图)。将层集中到样本特征张量中,以减小其空间大小,并减少网络中的参数总量(即权重)。DNN的最后一个常见层是完全连接层,它将特征张量映射到目标类的概率分布。
        在较高层次上,DNN只是一系列接受输入并返回预测标签的函数。受监督DNN的培训过程需要通过网络反复传递标记数据,使用损失函数评估模型在正确识别真实类别方面的表现。该模型通过计算损失函数相对于模型参数的梯度来优化该损失函数,并在训练期间迭代更新模型参数以最小化损失。模型中的单个测试、评估和更新过程称为一个阶段,整个训练过程通常需要几个阶段才能达到损失达到稳定的局部最小值的点。
        对于我们的样本量来说,从头开始训练一个非常深入的网络是禁止的,因为大多数最先进的深度学习模型需要拟合数百万个模型权重;我们的数据集样本大小不足以稳健地拟合这么多参数。为了应对这一挑战,我们使用了一种转移学习方法[44,45]来初始化我们的模型,权重来自一个在更大数据集上训练的CNN。迁移学习的目的是使用在一个源域中训练的模型来帮助加速相关目标域中的模型构建。在我们的案例中,我们使用了ImageNet数据集[46],这是一个由1000个类别的1400多万幅高分辨率图像组成的标记图像数据集,作为我们的源域,而我们的标记UAV图像作为目标域。通过使用预处理的权重,我们的模型被初始化为有助于区分源模型训练过程中学习到的复杂类的潜在图像特征。然后,我们通过培训一个卢旺达农业分类模型来建立这些模型。
        对于我们的预处理模型,我们使用了VGG16架构[47],最初是在上述ImageNet数据集上训练的。DNN体系结构是这些层的特定层和参数的蓝图。VGG16是一种深度CNN模型架构,首次在ImageNet大规模视觉识别挑战2014(ILSVRC 2014)中引入,在“分类和本地化”挑战任务中排名第二。这种体系结构今天仍然很流行,因为它的结构相对简单,涉及卷积层和最大池层的交替集和最终一组完全连接的层。

        为了开发我们的农业分类模型,我们首先通过预处理的VGG16模型运行我们的无人机图像,无需最后一层,为每个图像生成特征张量。这种方法通常称为特征提取[19],因为输出是特征张量而不是类预测。这些特征张量是通过应用有用的操作来创建的,这些操作用于区分源域中的类,创建原始图像的变换表示,通常可以改进分类。我们将其作为浅层前馈网络的输入进行分类我们的特定类别。这个较小的网络由一个具有S形激活的完全连接层[48]、一个有助于过拟合(丢失概率=0.5)的丢失层[49]和一个具有softmax激活函数的最终输出层[48][48]组成,以生成六个类别的类别概率。在测试时,具有最高建模概率的类被指定为预测类。Adam优化器[50]用于梯度更新,类别交叉熵用作损失函数。最后一个模型是用215幅图像的批量进行训练,损失稳定在大约20个时期。

3. Results

        表3总结了测试集分类模型的结果。总体模型记录的F1、准确度、召回率和准确度分别为0.86,而kappa系数略低,为0.82。香蕉、玉米、森林和结构类的表现都很好,F1分数接近或超过0.90。然而,人类编码者标记为豆科或其他的图像更难持续分类,测试集F1分数分别为0.49和0.62,分别地为了直观地表示该模型对无人机飞行区的预测,图4将卡巴拉马基地(右)的缝合无人机图像面板与叠加模型预测(左)并列。

         我们假设,这两个组的模型性能较低,主要是由于类内异质性较高。豆类和其他类都是多个更具体类别的集合;豆类类包含攀援豆类、灌木豆类和豌豆的实例,而其他类包含一组不同的农业和土地覆盖类,包括休耕地、水、木薯和红薯。此外,这些课程是模型中训练示例数量最少的课程之一(豆科,n=290;其他,n=600),这在很大程度上是由于我们研究区域中各个组成课程的流行率较低。尽管对于有效迁移学习的最小推荐样本量还没有达成共识,但分类器在使用更多标记样本和平衡的类比率时往往表现得更好。最后,几个图像实际上包含不止一个类,从而阻止了一个干净的单一指定。对于豆科类来说,这个问题尤其严重,在同一网格中,图像可能还包含玉米等作物。混淆矩阵(表4)从数值上证明了这种相互作用——20张标有豆类的图像被模型“误分类”为玉米。图5描述了这样一个示例,显示了攀援豆类在行之间发芽

 4. Discussion

        我们的研究结果表明,当在低空无人机图像上进行训练时,基于CNN的分类模型可以有效地识别某些作物和土地类别。鉴于卢旺达小农农场系统所带来的挑战性条件(例如间作、小块土地、异质景观),这一发现是有希望的。特别是,我们的调查结果表明,至少可以高精度地检测到一些重要的粮食安全作物(香蕉和玉米)以及传统的土地覆盖和使用类别(森林面积和建筑结构)。然而,豆类最难持续检测,可能是因为标签图像中豆类的多样性,与地面作物(如玉米)相比,它们的空气剖面不太明显,以及它们间作的可能性更高。同样,其他类别中图像的广泛多样性也使一致的特征描述变得困难。虽然我们最初的假设是,将无人机图像划分为小区域进行建模将有助于减少与间作相关的误分类错误,但混淆矩阵的结果表明,即使在这种规模下,对于某些关键作物,它仍然会影响模型性能。
        虽然很少有研究与我们的工作密切相关,以便进行直接比较,但我们的发现通常是对文献中其他相关工作的补充。Lottes等人[51]对从德国和瑞士的无人机飞行中收集的甜菜和不同杂草类型进行了分类。使用基于RGB图像训练的随机森林分类器,他们对预测对象的总体准确率为86%,对正确分类的区域的准确率为93%。尽管他们报告了许多植物类型的高检测率(例如,甜菜的召回率为78%,准确率为90%),但他们在所有种类(“其他杂草”)中的模型性能也很差,召回率为45%。在所审查的研究中,Hung等人[52]的方法与我们的方法最为相似,尽管我们的兴趣类别和地理位置不同。他们使用基于特征学习的方法对低空无人机拍摄的RGB图像进行识别,以识别澳大利亚新南威尔士州不同杂草类型的斑块(水葫芦、锯齿草丛和热带苏打苹果)。通过搜索不同像素和窗口大小的网格,他们发现水葫芦的F1得分最高,为94.3%,锯齿草丛为92.9%,热带苏打苹果为72.2%。对于聚焦于小农系统中无人机分类的研究,Hall等人[20]结合RGB和NIR图像对加纳的玉米进行分类。使用OBIA方法,他们报告的玉米总体准确率高于94%,而F1的准确率为90%。这一发现表明,即使在困难的小农环境中,加入额外的传感器读数也可能有助于改善分类结果。

4.1. Study Limitations

        虽然前景看好,但我们的研究有几个局限性。首先,使用高分辨率无人机图像有其挑战。例如,摄影测量软件可能很难在复杂几何体(例如,有数千个枝叶的植物)存在的情况下缝合重叠的UAV图像。通常,具有高覆盖和高飞行高度的航班往往有助于将重建过程中的变形降至最低。尽管我们的航班重叠率很高(75-80%),因为我们的航班相对较低海拔高度,某些类别的图像会出现失真(例如,森林)。这种失真有时会使标记变得更具挑战性,但我们不认为这个问题会显著影响CNN的性能,因为失真通常会故意添加到输入图像中,以防止过拟合并有助于泛化[43]。其次,我们的结果仅包括六个非随机无人机飞行场地的图像,总面积为480公顷。虽然我们选择了农业生态区和种植模式多样性的地点(间作和单作),但我们不能保证这些地点完全代表卢旺达的农田。同样,标记作物实例不是从无人机飞行区域随机选择的,而是自适应选择的,以确保覆盖感兴趣的作物类型。尽管此过程对于生成训练数据很有用,但如果无人机飞行区域中的大多数区域与标记图像不同,则可能会引入选择偏差。一个相关的警告是,虽然我们只标记了我们的国内农业专家可以从无人机图像中识别的类别,但我们没有将我们的标签与实地的独立地面真相进行比较。这一限制对于作物分类来说不太严重,但如果将这种标记方法扩展到产量估计,则可能会很重要。最后,即使在5米×5米的网格范围内,间作问题也会使制定地面真相标签和预测具有挑战性。尽管我们需要标记器为每个图像选择一个类别,如图4所示,但在同一图像中可以并经常出现几种作物。在东非[8,9],特别是在卢旺达工作的其他研究小组注意到了这个问题,卢旺达是世界上最密集的间作系统之一,面积最小。我们相信,在间作条件下研究有效的作物鉴定方法是未来研究的富有成果的领域

4.2. Future Research

        尽管从无人机图像中识别作物类型有助于了解当地农业趋势,但在不久的将来扩展到整个地区或国家可能需要卫星数据的输入,因为在大型行政单位范围内多次飞行无人机可能成本高昂。然而,我们认为,无人机可能提供一种低成本、高吞吐量的选择,用于为在低分辨率卫星图像上训练的机器学习模型创建标记数据。
        考虑到使用传统现场枚举技术开发地面实况数据所需的努力,这种方法似乎特别有前景。未来的研究可以使用计算机标记的无人机图像作为作物分类模型的“噪声”地面真相标签,并将此类混合模型的精度与仅基于人类观察员标记的模型的精度进行比较[10]。随着卫星图像分辨率的提高,类似的远程标记方法与深度学习模型相结合,对于大规模复杂农业系统的作物预测应该更具吸引力。
        虽然在遥感文献中是一个流行的标准,但预处理模型中使用的ImageNet数据集不包含航空图像。未来的研究可以测试在大型卫星图像数据集(如世界功能图)上使用预处理模型的边际效益[53]。此外,尽管在我们的模型中,仅使用RGB波段对某些作物和土地利用类别进行分类是有效的,但未来的工作可以更好地了解多光谱波段如何在这种情况下提高分类性能。一个重要的操作考虑因素是,需要多少标记数据来训练能够在预期人口区域内很好地推广的模型。尽管本研究未涉及,但进行跨站点验证和使用学习曲线等诊断(示例见[31])可以帮助利益相关者更好地规划未来的研究。
        最后,未来的研究应扩大建模的相关作物类型,以包括对撒哈拉以南非洲国家具有战略重要性的其他作物类型,并优先考虑解决间作独特挑战的建模方法。这一重点对于许多小农户农场比例较高的国家来说至关重要,例如我们在卢旺达的研究区域,那里的间作系统占粮食生产系统的75%[38]。

猜你喜欢

转载自blog.csdn.net/m0_45447650/article/details/127186871