论文翻译

Abstract

$~~~~~~$ 由于市民和公司每天产生的废物量不断增加，在大城市环境中的固体废物管理成为一个复杂的问题。当前的计算机视觉和深度学习技术可以帮助对废物类型进行自动检测和分类，以进行进一步的回收任务。在这项工作中，我们使用TrashNet数据集来训练和比较不同的深度学习架构，以对垃圾类型进行自动分类。特别是，比较了几种卷积神经网络（CNN）架构：VGG，Inception和ResNet。使用合并的Inception-ResNet模型获得了最佳的分类结果，该模型达到了88.6％的准确度。这些是通过考虑的数据集获得的最佳结果。

1 Introduction

$~~~~~~$ 垃圾收集和回收是现代城市（尤其是大城市）的基本服务。由于可利用的自然资源的减少以及由于产生的垃圾量增加而产生的环境问题，因此需要再循环以减少公民的污染和健康问题。欧洲平均每年产生517公斤垃圾，其中只有一小部分被回收¹。根据环境保护署的数据，美国人产生的废物中有75％可回收，但实际上只有30％可回收。当前，大多数垃圾分类过程都是手工完成的，这给工人带来了许多健康问题，既费时又需要向公民征收财务税²。此外，必须尽快进行废物分离，以减少废物被其他材料污染³。
$~~~~~~$ 废物的分离和回收对于可持续发展的社会是必不可少的。当前，在自动垃圾分类任务中将ICT（例如，使用诸如智能传感器，云平台或物联网之类的技术和设备）应用于智能城市可以显着提高这些过程的效率[1]。可以通过垃圾的类型⁴，废物的可生物降解性²或其他方面⁵进行分类。另一方面，世界各地的反垃圾组织和城市政府正在通过人工审核来评估城市清洁度⁶。废物的定位和量化是提高城市清洁度的重要步骤，在印度等人口过剩的国家，这可能成为健康问题⁵。
$~~~~~~$ 这些自动垃圾回收系统还可以利用计算机视觉来分析回收工厂捕获的图像或视频，以确定混合垃圾中存在哪种物体。这一阶段的良好效果将带动整个回收过程的良好效果。此外，随着机器学习技术的发展，特别是深度学习，已经取得了很好的基于图像的垃圾分类结果³。
$~~~~~~$ 在本文中，我们采用一种有监督的方法对图像中存在的几种类型的废物（例如玻璃，纸张，纸板，塑料等）进行有效分类。为此，我们训练并比较了几种深度分类模型，以识别图像中存在的不同废物类别。 TrashNet数据集的图片⁴）。
$~~~~~~$ 论文组织如下。第二部分回顾了基于图像的废物分类系统。第3部分概述了不同的深度神经架构使用或监督分类的废物。第四部分描述了数据集和废物分类实验。第五部分是本研究的结论。

2 Previous Work

$~~~~~~$ 当前用于废物分离的计算机视觉系统的目标是使用图像分析技术对物体进行检测和分类。此过程可以分为以下步骤：
$~~~~~~$ 1. 细分：涉及分离每种类型的废物。首先，需要对图像进行一些预处理，以去除噪声（例如高斯模糊），增强对比度（例如直方图均衡）或将其二值化（例如Otsualgorithm）。之后，可以应用多种边缘检测方法（例如Canny或分水岭算法）将图像分割为均匀区域¹。
$~~~~~~$ 2. 特征提取：在深度学习技术发展之前，需要特征提取方法（即基于形状，纹理或颜色描述符）从分段区域中提取有用信息，并从这些特征中构建自动分类模型。例如，统计矩，基于傅立叶，基于Gabor的描述符，直方图东方梯度（HOG）是其中一些使用的方法¹⁵。另外，在分类阶段之前，使用主成分分析（PCA）来降低数据维数⁵。
$~~~~~~$3，学习和分类：提取特征后，将训练分类模型以识别废物中的对象。例如，相关算法⁷，K最近邻（KNN）¹或SVM ³⁴。从深度学习的出现开始，各种类型的深度神经体系结构（如AlexNet ⁴，Faster R-CNN ⁸或GoogleNet ⁶）也被应用到所考虑的问题中。最近已经为此应用构建了特殊的神经体系结构，例如GarbNet ⁵或OscarNet ⁹，它们基于预先训练的卷积神经网络体系结构，例如AlexNet或VGG-19。
$~~~~~~$ 分类时要考虑的一个方面是图像分辨率。如果图像很大，可以使用一个滑动窗口⁶。此外，当数据集大小很小时，可以像在⁴中那样应用数据扩充技术。参考文献中提出的系统主要集中在废物类型的本地化和分类上。其中一些系统还被实现为Android应用程序，就像由Mittal等人开发的SpotGarbage一样。
$~~~~~~$ 然而，由于许多方法都使用自己的数据集，因此很难对所提方法之间的准确性进行公平比较。因此，可以使用不同的废物类别来训练每个提出的模型。表1比较了一些当前基于图像的深度学习系统，用于垃圾分类。可以理解的是，近年来已经取得了一些良好的结果。我们在这项工作中的目标是评估其他深度模型，这些模型可以改善TrashNet数据集的当前最新垃圾分类。
在这里插入图片描述

3 Deep Architectures for Supervised Waste Classification

$~~~~~~$ 基于卷积神经网络（CNN）模型的当前许多用于监督分类的图像的神经体系结构。CNN由卷积层组成，在这些卷积层中，神经元通过卷积函数而不是通过一般的矩阵乘法连接，因此权重是共享的，而不是全部相连。结果，获得了对于平移，旋转和其他变换而言不变的空间图案。
$~~~~~~$ 在我们的实验中，我们使用了几种基于卷积层的神经结构。特别是:
$~~~~~~$ 1. VGG：VGG体系结构是为高分辨率图像上的定位和分类任务开发的¹⁰。 VGG网络由深度不断增加的卷积层和所有卷积层中的小内核（即3×3）组成。在这项工作中，我们专注于两个VGG模型：
$~~~~~~~~~$ （a）VGG-16：在VGG-16 ¹¹中，由13个卷积层和3个完全连接的层组成的体系结构如下。一块具有最大池的两个64深度卷积层的块，一个具有最大池的两个128深度卷积层的块，具有最大池的三个256深度卷积层的一个块，两个具有512深度卷积的块具有最大池化的层，具有4096个神经元的两个全连接层，具有与数据集的类一样多的神经元和作为激活函数的SoftMax的一个全连接层。图1（a）展示了这种体系结构。
$~~~~~~~~~$ （b）VGG-19：VGG 19 ¹¹是先前模型的变体。唯一的区别是最后三个卷积块是由4个卷积层而不是3个卷积层形成的。图1（b）显示了此体系结构。
$~~~~~~$ 2. ResNet：从诸如AlexNet或VGG之类的深度卷积网络中，研究一直集中在增加体系结构的深度上，但是消失的梯度问题阻止了它的实现。ResNet引入了跳过连接，以避免降低网络性能¹²。结果，从卷积层获得的特征映射与前一层获得的特征映射相结合。在我们的案例中，我们使用了ResNet-18，它由三个32深度卷积层的一个块和两个卷积层的四个块组成，其深度分别增加了64、128、256和512。除前两层具有5×5维滤镜外，所有卷积层均具有3×3维滤镜。最后，在网络的底部，有两个完全连接或密集的层，分别具有512和6个神经元。图1（c）显示了ResNet-18架构。
$~~~~~~$ 3. Inception：Inception赢得了ImageNet大规模视觉识别挑战赛2014（ILSVRC14）。它的主要贡献是在保持计算预算不变的同时增加了网络的深度和宽度¹³。该版本的第一个版本是众所周知的GoogLeNet。在Inception模块中，卷积层块是并行的，而不是VGG中的序列。这意味着，在VGG架构中，卷积层的输出是块中随后的卷积层的输入，而在Inception架构中，块中的所有或部分卷积层都具有相同的输入，并且它们在末尾串联图1（d）显示了Inception架构。
$~~~~~~$ 4. Inception-ResNet：Szegedy等¹⁴结合了Inception和ResNet概念：避免梯度消失的残差连接和通过保持计算成本来增加网络的Inception模块。图1（e）显示了最终的Inception-ResNet体系结构。
在这里插入图片描述

4 Classification Experiments Using TrashNet

4.1 The TrashNet Dataset

$~~~~~~$ TrashNet数据集⁴由斯坦福大学的Mindy Yang和Gary Thung创建。该数据集包含六类废物的RGB图像，其中每个图像仅出现一种类型的垃圾。特别是：玻璃，纸张，纸板，塑料，金属和普通垃圾。当前，该数据集由2,527张图像组成，每类包含以下图像分布：玻璃501张，纸张594张，纸板403张，塑料482张，金属410张和一般垃圾137张。通过将物体放置在白色海报板上并使用阳光和/或室内照明来捕获图像。所有图片均已调整为512×384的空间分辨率。图2说明了TrashNet数据集中存在的六个类。
$~~~~~~$ 由于深度神经网络需要更大的数据集，因此通常的做法是通过在每个原始图像上应用一组变形（即旋转，缩放或亮度校正等）来增强原始图像的原始集合。
在这里插入图片描述

4.2 Data Pre-processing

$~~~~~~$ 我们的首要目标是开发一个深度学习模型，该模型使用TrashNet数据集对孤立的垃圾元素进行分类。为此，我们尝试了前面解释的所有深度卷积体系结构。但是，对于所有模型，由于计算问题，我们都需要调整图像的大小并将其亮度值标准化为0到1。
$~~~~~~$ 此外，由于我们有少量的图像来训练我们的模型，因此使用数据扩充来生成一个伪无限数量的训练样本。在训练模型的同时，通过对原始数据进行变换组合，生成新的图像。变换是随机选择的:在0 - 40之间的旋转，在0% - 20%之间的宽度变化，在0% - 20%之间的高度变化，在0% - 20%之间的剪切，在0% - 20%之间的变焦，在0% - 20%之间的水平翻转。

4.3 Classification Experiments and Results

$~~~~~~$ 我们首先将原始图像集合随机分为三个子集：分别为训练，验证和测试。所有子集具有相同的类率。由于图像数量很少，我们决定将其中的80％用于训练，将10％用于验证，将其余10％用于测试。为了获得更可靠的结果，我们采用了5倍交叉验证策略，即随机创建5个训练/验证/测试集。而且，如前所述，训练样本是通过数据增强技术增加的。本小节中给出的结果与测试数据集的5次运行的平均值相对应。
在这里插入图片描述
$~~~~~~$ 第二阶段是配置每个网络的参数。在所有情况下，网络的权重都是随机初始化的。对于我们在实验中考虑的所有网络，我们使用16个样本的批次大小，随机梯度下降（SGD）作为优化算法，学习率为0.0002。训练期间采用了早期停止策略。如果此结果在25epoch时间内没有改善，我们将模型保留为没有验证损失的情况，并停止训练。此外，在所有模型的每个卷积层块的末尾都引入了批处理归一化层。图像被调整为197×283像素以训练模型。
$~~~~~~$ 表2给出了使用五个经过测试的深层网络获得的均值和标准偏差准确性结果的对比研究。此外，该表还显示了训练模型所需的历时的对比研究。一方面，ResNet模型以88.66％的准确度实现了最佳结果。此外，由于标准偏差最小，因此ResNet模型是最稳定的模型。但是，Inception-ResNet模型产生了相似的结果。另一方面，ResNet模型是不需要培训的时代。我们可以得出结论，ResNet模型是精度和速度最好的。
$~~~~~~$ 表3将我们使用ResNet模型得到的最佳结果与其他应用于废物分类的深度学习模型进行了比较。结果表明，虽然我们的模型与Kennedy等人的[9]模型比较接近，但与其他模型相比，我们的模型更接近。然而，Kennedy混合了TrashNet和PASCAL数据集，class 7 (non waste)是第二个数据集。另一方面，他的结果显示，他们对模型进行了过度拟合，在non-wasteclass (PASCAL数据集)中获得了良好的结果，而在TrashNet数据集中获得了较低的结果。
在这里插入图片描述
$~~~~~~$ 最后，图3显示了针对每个测试的不同深度架构所获得的混淆矩阵。当我们为每种架构训练了五个模型时，我们显示的模型的准确性接近平均准确性。我们不能更准确地确定类别，因为它取决于模型。

5 Conclusion

$~~~~~~$ 在本文中，我们评估了几种CNN架构在垃圾自动分类中的应用。在我们对TrashNet数据集的实验中，使用平均准确率为88.66%的ResNet体系结构获得了最佳分类结果。此外，与现有的技术水平相比，我们在samedataset上取得了最好的结果。在未来的工作中，我们将研究生成具有多种类型垃圾的真实合成图像，这些图像将用于训练我们的模型，然后用结合多个类的真实图像进行测试

References

Rodr ́ıguez, I., P ́erez, J., Salmador, A.: Intelligent garbage classifier. Int. J. Interact.Multimed. Artif. Intell.1(1), 31–36 (2008) ↩︎ ↩︎ ↩︎ ↩︎
Sudha, S., Vidhyalakshmi, M., Pavithra, K.: An automatic classification methodfor environment (2016) ↩︎ ↩︎
Sakr, G.E., Mokbel, M., Darwich, A., Khneisser, M.N., Hadi, A.: Comparing deeplearning and support vector machines for autonomous waste sorting. In: IEEEInternational Multidisciplinary Conference on Engineering Technology (IMCET),pp. 207–212. IEEE (2016) ↩︎ ↩︎ ↩︎
Yang, M., Thung, G.: Classification of trash for recyclability status. CS229 ProjectReport 2016 (2016) ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Mittal, G., Yagnik, K.B., Garg, M., Krishnan, N.C.: SpotGarbage: smartphoneapp to detect garbage using deep learning. In: Proceedings of the 2016 ACM Inter-national Joint Conference on Pervasive and Ubiquitous Computing, pp. 940–945.ACM (2016) ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Rad, M.S., et al.: A computer vision system to localize and classify wastes on thestreets. In: Liu, M., Chen, H., Vincze, M. (eds.) ICVS 2017. LNCS, vol. 10528, pp.195–204. Springer, Cham (2017).https://doi.org/10.1007/978-3-319-68345-418 ↩︎ ↩︎ ↩︎
Bri ̃nez, L.J.C., Rengifo, A., Escobar, M.: Automatic waste classification using com-puter vision as an application in Colombian high schools. In: 6th Latin-AmericanConference on Networked and Electronic Media (LACNEM 2015), pp. 1–5. IET(2015) ↩︎
Awe, O., Mengistu, R., Sreedhar, V.: Smart trash net: waste localization and clas-sification (2017) ↩︎
Kennedy, T.: OscarNet: using transfer learning to classify disposable waste (2016) ↩︎
Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scaleimage recognition. arXiv preprintarXiv:1409.1556(2014) ↩︎
Deng, J., Dong, W., Socher, R. Li, L.-J., Li, K., Fei-Fei, L.: ImageNet: a large-scalehierarchical image database. In: 2009 IEEE Conference on Computer Vision andPattern Recognition, CVPR 2009, pp. 248–255. IEEE (2009) ↩︎ ↩︎
He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pp. 770–778 (2016) ↩︎
Szegedy, C., et al.: Going deeper with convolutions. In: Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, pp. 1–9 (2015) ↩︎
Szegedy, C., Ioffe, S., Vanhoucke, V., Alemi, A.A.: Inception-v4, inception-resnetand the impact of residual connections on learning. In: AAAI, vol. 4, p. 12 (2017) ↩︎

大王子呀

发布了28 篇原创文章 · 获赞 7 · 访问量 8774

私信关注

《Automatic Image-Based WasteClassification》论文笔记

Classification of Trash for Recyclability Status