【AI测试】AI测肤算法的稳定性测试

人工智能产品应用中，如手机上预测摄像头前的人脸的年龄，或者美图美妆中AI测肤的检测皮肤问题。
如果一个用户中检测年龄时，一会20多岁，一会30-40岁，对用户的体验来说，给用户的感觉就是不准确，一方面是和真实年龄的偏差，一方面是每次的年龄不同，让人产生怀疑。而像AI测肤，如果用户连续检测，每次的检测出皮肤问题都差别很大，举例黑头问题，第一次检测时为轻度，第二次检测又为重度，连续几次都有变化较大的话，也会让用户产生怀疑。
这也是人工智能应用中的一个挑战，“不可解释性”，对用户来说，并不了解为什么结果是这样的。像黑头的严重程序，可能是用户每次拍摄照片的角度不太一样，光照的影响等等。对于用户来说，连续的拍照，人是没有什么变化的。但算法处理的是照片，从照片来分析肤质。

如何测试这种算法的稳定性

如何知道比如黑头，在连续拍照下，每次的结果是怎样的。是否稳定？测试人员如何评价稳定，怎样稳定，怎样是不稳定？
我的思考方法如下：
方法1
如用APP对100人进行拍照，每个人拍5张照片，每次拍完，记录下测肤结果。共有5次结果。
10人共用50次结果。对结果进行分析。

不同型号的手机，安卓/IOS系统手机，摄像头的清晰度不一样也会有影响。
安卓手机对一个人拍照5次，IOS手机对一次拍照5次。一个人需要拍照10次。
这种方法缺点：慢。需要同事配合。需要等测肤结果出来后，再进行下一次拍照。结果记录麻烦。样本人数少，不能反应整体情况。
优点：最接近用户真实的使用场景，从用户角度出发评价。

方法2
收集同一个人相近场景的照片5张，如看照片是同一个人同一时间段多次拍照的照片。
收集100个人，共500张照片。
扔到算法中去运行，计算每个人某个维度级别（无、轻度、重度）的熵值。画出熵值分布图，如下图
在这里插入图片描述

熵值参考：
5个一致，熵为 0
4个一致，熵为 0.72
3个一致，2个一致，熵为 0.97
如上图中维度绝大部分熵值都在1.0以下
比较稳定，基本都会有3次结果一致情况

熵

熵（entropy）指的是体系的混乱的程度
信息熵（香农熵）：是一种信息的度量方式，表示信息的混乱程度，也就是说：信息越有序，信息熵越低。例如：火柴有序放在火柴盒里，熵值很低，相反，熵值很高。
信息增益：在划分数据集前后信息发生的变化称为信息增益

待后续再补充内容

【AI测试】AI测肤算法的稳定性测试

如何测试这种算法的稳定性

熵

猜你喜欢