图像美学质量评价技术总结

1.1 图像美学评价数据集：

AVA（2012年）：西班牙巴塞罗那自治大学计算机视觉中心的Murray等构建了一个面向图像视觉美学质量分析与度量的大规模图像数据库（a large-scale database for aesthetic visual analysis，AVA），采用了从在线图像分享打分网站（dpchallenge.com）下载收集的打分方法，数据集包含255530幅有效图像，每一幅图像都由多个网站注册的人类艺术家会员评分（1~10分），每幅图被评分的人数范围为78~539，平均210人参与评分。该数据集是图像美学评价领域公认的基准测试集，目前有200余篇论文引用了该数据集。其标注数据质量较高，能够支持美感分类、美感评分、美感分布的学习，并且超过60种内容的摄影样式语义标记。然而该数据库并没有考虑图像的拍摄场景、相机参数以及后期处理带来的影响。
AADB（2016年）：除了美感分布之外，在美学因素方面，2016年美国加州大学欧文分校Kong等设计了一个新的图像美学数据集美学因素数据集（aesthetics and attributes database，AADB），包含了8种美学因素（平衡、颜色和谐型、趣味、景深、光照、主体、三分、颜色丰富性）的二值分类评价（在单个美学因素上的“好”与“不好”），然而其美学因素的评价过于简单，不适合用于分析美学评价的主观性与多样性。
PCCD（2017年）：中国台湾信息科学研究所的Chang等发布了一个新的图像美学数据集照片语言评论数据集（photo critique captioning dataset，PCCD），首次在图像美学数据集中加入了多美学因素的语言评论信息，并结合卷积神经网络（convolutional neural networks，CNN）与长短记忆单元（long-short term memory，LSTM）进行了图像美学语言评论的预测。该数据集的标注较为全面，包含了1个总体和6个美学因素的评价分数、分布以及多人语言评论，然而其数据量太少（4307幅），难以满足大型深度神经网络对于训练样本的规模需求，并且其数据来源Gurushots.com已经停止发布更多的评价数据。
AROD（2018年）：德国蒂宾根大学的Schwarz等通过在线图像分享网站Flickr，构建了一个大型图像美学数据集多用户共识大型图像数据集（multi-user agreements and assemble a large dataset，AROD），包含了38万幅图像，标注了图像美学评分的标注数据，其美学评分标注数据是由图像查看次数与点赞次数计算得出，可以用于图像美学评分估计。
AVA-Reviews（2018年）：复旦大学的Wang等利用AVA数据集构建了AVA-Reviews数据集，包含了AVA数据集中的4万幅图像，每幅图像跟随了6条语言评论，该文献利用CNN与循环神经网络（recurrent neural network，RNN）相结合的神经网络结构同时预测图像的美学分类与语言评论，然而该AVA-Reviews数据集的规模仍然不大，并且语言评论的标注没有考虑多美学因素。
Waterloo IAA database(未公布):滑铁卢大学Wang Zhou等建立一个美学图像数据库（可用于quality assessment），包含1000+幅图像。

1.2 美感图像难点

1）计算美学。艺术中的情感即审美的情感，是一种无功利的具有人类普遍性的情感。计算美学（computational aesthetics）是人工智能、美学、心理学等学科发展到一定程度时出现的新兴研究方向，其目的在于使得计算机具有类似人类发现美、改造美、创造美的美学智能，并且研究人类感知美的内在机理，探索人类美学智能与大自然和谐美丽的奥秘。

2）计算视觉美学。人类约80%的认知信息来自于视觉感知通道，视觉艺术是人类对可视内容信息的一种艺术性加工处理，计算视觉美学是虚拟现实、计算机视觉、计算摄影学、情感计算等领域的研究热点。其在工业设计、服装设计、产品设计、影像视觉、城市规划、环境保护等多个方面有重要的应用前景。

3）图像美学质量评价。在计算视觉美学的研究中，使得计算机或机器人能够“发现图像美”并且“理解图像美”，是当前最活跃的研究主题，也是计算视觉美学研究的第一步。如图1所示，拍摄同样一个场景，通常人们会认为左边图的美感高于右边的图。计算机或机器人是否也能像人一样分辨“美”与“丑”？计算机只有在理解美的基础上，才能智能地美化图像，进而能够创造出美的视觉艺术作品。

图1. 图像美感的人类评价

图像美学质量评价的主要难点在于以下3点：

（1）与物体识别的语义特征相比，人类审美的奥秘还未出现可量化的科学解释，图像美学特征点选取难度较大。

（2）图像美学质量评价除了具备一定的“客观性”（共识性）之外，还具有很强的“主观性”。

（3）人类对于图像美感的评价存在多种形式，例如分“美”与“丑”，给出数值评分、语言评价等。

1.3 结论与建议

目前在图像、图形、视频3种主要的可视媒体中，图像美学评价的研究较多，可以将上述研究现状总结为5层任务：美感分类是指给定一幅图像，输出“好”和“不好”或者美学质量“高”或“低”2个类别；美感评分是给出图像的美学质量评分，表现为一个连续数值；美感分布是给出图像的美学质量分数分布直方图；美学因素是给出图像的光影、配色、构图、模糊、运动、趣味等多个方面的评价；美学描述给出图像美学方面的语言评论，如图2所示。

图2. 图像美学质量评价的5层任务

对图像美学质量评价技术的分析总结与发展建议如下。

1）美学评价5层模型与其对应的数据量和研究论文数量总体成倒三角形分布：层级越高，目前的数据量和论文数量越少，标注质量越低。

2）目前该方向的研究主要集中于客观评价，即第1 层美感分类（200+篇学术论文）与第2 层美感评分（30+篇美学论文）。第3层美感分布的研究，目前还不到10篇论文，第4层美学因素的研究有2篇论文，第5层美学描述的研究只有2篇论文涉及。

3）美学质量评价5层任务中，可用有标注数据的数量逐层递减。数据主要集中于前3层：美感分类、评分、分布（30万+），第4层美学因素可用数据小于1万（AADB），第5层美学描述数据小于0.5万（PCCD），建议加强图像美学质量评价高层任务的研究力度，增加高层任务所需要的标注数据量，以及增加更丰富的图像美学质量自动评价新任务，并进一步拓展到视频美学质量与图形美学质量评价的研究。

4）与图像识别（代表性数据集ImageNet：1400万+的有标注数据）等多项计算机视觉任务相比，图像美学的数据获取难度较大，整体数据规模较小（代表性数据集AVA：25万+有标注数据），主流图像美学数据集来自于西方国家，代表了西方的审美观，这对于研究东方人、中国人美学智能极为不利。建议继续扩大图像美学数据集的规模，尤其是需要建立中国人自己的图像美学数据集。

5）美学质量评价5层任务中，数据的标注质量逐层递减。前3层的数据标注，典型代表AVA数据集中每一幅图像至少有78名艺术家标注，平均每幅图像的标注人数为210。而第4层和第5层每一幅图像的标注人数不到10人，难以支撑美学评价多样性的分析，建议增强图像美学数据集的标注质量与标注多样性。

6）目前图像美学评价所运用的主流技术为深度神经网络，其性能大大超越了之前的手工设计美学特征，然而深度神经网络学习的特征可解释性较差，难以支撑对人类美学智能的深入研究，需要打开图像美学深度学习特征的黑匣子，建议研究美学特征与人类美学智能的对应关系，进一步探索人类美学智能的奥秘。

本文参考：

https://mp.weixin.qq.com/s?__biz=MzI4MjU4MzAyMg==&mid=2247483714&idx=1&sn=6ea19697fb803069b1726b19e65e60b3&chksm=eb968bc3dce102d5353af9b71cae1433b3e1d4b77d86369f58096de8239e9b1c307949fb7960&mpshare=1&scene=23&srcid=0730nEt1dCd4kt3B5vkmtt2E#rd