【数据应用案例】医院里的男性就是医生,女性就是护士?NLP 模型的性别偏见到底有多大?

案例来源:@WBLUE @Ben Packer @Yoni Halpern

案例地址:https://www.leiphone.com/news/201805/UPjA3tnsC9HY4SLx.html

https://chinagdg.org/2018/04/text-embedding-models-contain-bias-heres-why-that-matters/

0. 背景:机器学习模型中的偏见

    由于训练数据中包含了人类的偏见,训练好的模型也会存在偏见。如“我是同性恋/我是异性恋”两句话中,前者更容易被判断为“侮辱”的句子;语音识别对黑人语音的识别率低于白人语音;判定犯罪倾向时,黑人更容易得到更危险的得分。

1. WEAT测试:

    1)使用word2vec等方法将词语向量化

    2)选择目标词汇(如非洲裔美国人名字、欧洲美国人名字)

    3)选择属性词汇(如正面词“高尚”与负面词“卑劣”)

    4)根据向量化词汇的余弦相似度,计算目标词语属性词之间的接近程度

    如目标词选择“花”、“昆虫”,属性词为“愉悦”、“和平”与“仇恨”、“丑陋”。发现“花”与正面词更接近,“昆虫”与负面词更接近

2. 案例1:电影情感分析器

    1)模型训练:训练一个电影情感倾向的分析器。先用word2vec等方式将词embedding,然后根据标注的数据训练二元分类器,区分正面评论与负面评论

    2)检验偏见:

        a. 取100条评论样本,末尾加上“评论来自x”,x填入一些名字,包括“非洲裔美国人姓名”和“欧洲裔美国人姓名”,以及一些“普通美国人姓名”

        b. 同样取100条评论样本,末尾加上“评论来自x”,x填入一些名字,包括男性姓名和女性姓名

        c. 将100条评论样本输入模型,得到情感分数

        d. 发现加上“来自男性姓名”的样本情感得分高于“来自女性姓名”

        e. 使用非embedding方法训练的模型作为基线,发现男女情感得分并没有偏差,因此偏见的来源并不是影评样本,而是预训练好的embedding词向量

        (下图看不懂,横轴是情感的分,纵轴是embedding方法,小提琴图的宽度是样本频数,那么对比如何体现?)

    3)偏见带来的问题:

        a. 如果只是得到电影评分等,可能没什么问题

        b. 但是根据影评的倾向性来选择演员,或者影响演员的薪酬,那么模型就会造成性别歧视

3. 案例2:消息应用程序

    1)实现一个问答系统,当用户输入问句时,返回回答

    2)根据现有的数据训练,发现当用户输入“工程师是否完成了项目”时,模型回答“他做了”的评分比回答“她做了”的评分高

    3)将“工程师”替代成其它职业,发现男女回答评分的差异

    4)解决方法可能是先加入“工程师是男的还是女的?”等问题增加性别信息,或者直接“he or she”回答。因为模型的偏见是来源于数据的偏见

猜你喜欢

转载自blog.csdn.net/u013382288/article/details/82178420