【AI测试】AI测肤算法的稳定性测试

人工智能产品应用中,如手机上预测摄像头前的人脸的年龄,或者美图美妆中AI测肤的检测皮肤问题。
如果一个用户中检测年龄时,一会20多岁,一会30-40岁,对用户的体验来说,给用户的感觉就是不准确,一方面是和真实年龄的偏差,一方面是每次的年龄不同,让人产生怀疑。而像AI测肤,如果用户连续检测,每次的检测出皮肤问题都差别很大,举例黑头问题,第一次检测时为轻度,第二次检测又为重度,连续几次都有变化较大的话,也会让用户产生怀疑。
这也是人工智能应用中的一个挑战,“不可解释性”,对用户来说,并不了解为什么结果是这样的。像黑头的严重程序,可能是用户每次拍摄照片的角度不太一样,光照的影响等等。对于用户来说,连续的拍照,人是没有什么变化的。但算法处理的是照片,从照片来分析肤质。

如何测试这种算法的稳定性

如何知道比如黑头,在连续拍照下,每次的结果是怎样的。是否稳定?测试人员如何评价稳定,怎样稳定,怎样是不稳定?
我的思考方法如下:
方法1
如用APP对100人进行拍照,每个人拍5张照片,每次拍完,记录下测肤结果。共有5次结果。
10人共用50次结果。对结果进行分析。

不同型号的手机,安卓/IOS系统手机,摄像头的清晰度不一样也会有影响。
安卓手机对一个人拍照5次,IOS手机对一次拍照5次。一个人需要拍照10次。
这种方法缺点:慢。需要同事配合。需要等测肤结果出来后,再进行下一次拍照。结果记录麻烦。样本人数少,不能反应整体情况。
优点:最接近用户真实的使用场景,从用户角度出发评价。

方法2
收集同一个人相近场景的照片5张,如看照片是同一个人同一时间段多次拍照的照片。
收集100个人,共500张照片。
扔到算法中去运行,计算每个人某个维度级别(无、轻度、重度)的熵值。画出熵值分布图,如下图
在这里插入图片描述

熵值参考:
5个一致,熵为 0
4个一致,熵为 0.72
3个一致,2个一致,熵为 0.97
如上图中维度绝大部分熵值都在1.0以下
比较稳定,基本都会有3次结果一致情况

熵(entropy)指的是体系的混乱的程度
信息熵(香农熵): 是一种信息的度量方式,表示信息的混乱程度,也就是说:信息越有序,信息熵越低。例如:火柴有序放在火柴盒里,熵值很低,相反,熵值很高。
信息增益: 在划分数据集前后信息发生的变化称为信息增益

待后续再补充内容

猜你喜欢

转载自blog.csdn.net/lhh08hasee/article/details/86613167