Deep Multi-Patch Aggregation Network forImage Style, Aesthetics, and Quality Estimation

目的和一般方法

想要研究图片的风格质量等，就需要细粒度fine-grained细节信息。对于本文提出的网络，使用一张图片生成的多个patches来训练。

现有的方法如{24，17}，使用随机生成一个patch区块(e.g., cropping 224 × 224 × 3 patchesfrom 256 × 256 × 3 images)，这样选择的不具有代表性，对图片表达性差。这篇论文的做法是对原图生成一组patch，然后打包作为原图的代表。a small set or bag ofpatches cropped from it。生成的图片在bag中是无序的，然后获得图片集bag的聚合结果。

Patches的聚合是什么以及其网络结构

它将一组patches作为输入；通过patchaggregation structures来在中间层完成patches的聚合；这个结构和max pooling有关，且开始是hand-designed，但是参数是可学习的。

普通的CNN网络结构，当对高分辨率图片下采样之后就不能识别在原图分辨率下的细粒度特征；randomly cropped patch的好处就是可以保持原分辨率，但是单一的patch信息量少，not informative enough，甚至是有歧义的。这篇网络结构是提取每一个patch（bag中的）的特征，聚合特征，然后预测这一组bag的标签。下图就是这个网络结构。

关键的聚合，到底是什么

聚合前两个要求：

1）CNN得到的特征是可比较的，这样才能聚合。对策就是CNN共享参数。

2）patches是无需的orderless。对于无序的约束作者又提出了两种方法，一是使用普通的统计方法，比如min,max,median,mean等，是顺序无关的；又一种是排序，加入一个排序的结构，再聚合两种方法都做了对应策略：propose two different structures for multi-patch aggregation: theStatistics Aggregation Structure and the Fully-Connected Sorting Aggregation Structure。后者就是为了排序，是由一个sorting layer，对patch对应的特征每个维度的值配准。

统计的方法

S = {min; max; median; mean}，由S算出特征的结构组合在一起，concatenate。再使用FC聚合。

FC sorting aggregation structure

方法是按值排序，order by values

目前为止，该文就基本结束了，不要忘记这篇文章的目的是图片风格和清晰度等评价的网络。

读论文，多区块处理：Deep Multi-Patch Aggregation Network forImage Style, Aesthetics, and Quality Estimation