没学好统计学的下场

刚才看了一篇文章：Huimin, Zhang, Lingfei, et al. The Cinderella Complex: Word embeddings reveal gender stereotypes in movies and books.[J]. PloS one, 2019, 14(11):e0225385.

这篇文章是说神魔的呢？我们来看看摘要：

我们对数千部电影和书籍的分析揭示了这些文化产品是如何将陈规定型的性别偏见编织成道德故事，并通过讲故事使这种性别偏见流传下去。通过运用词嵌入技术，我们揭示了小说中女性角色对男性角色的情感依赖。我们把这种叙事结构称为“灰姑娘情结”——女性在追求幸福、充实的生活中依赖男性。我们的分析涵盖了塑造现代集体记忆的大部分文艺作品，包括7226本书、6087部电影概要和1109部电影剧本。“灰姑娘情结”广泛存在于不同的时期和背景中，提醒人们性别偏见在我们的社会中根深蒂固到何种地步……

运用统计方法分析社会问题，好啊。作为一个数字人文学科的爱好者，我赶紧打开看看。

先说说核心研究方法：作者在这篇文章里用词嵌入替代情感词典，来衡量女性主人公在整个故事里的情绪（幸福程度）变化。怎么替代的呢？首先用故事文本训练词嵌入模型，这样每个词都有了个向量表示。然后想要计算一个段落的“主人公幸福指数”，就比较这个段落里的词和情感词典里已知的正负向情感词的相似度，这个相似度就是这个词的情感正负向程度。这个段落里的词都这么算，然后搞个加权和，幸福指数就有了。对故事里的各个段落都计算幸福指数，就可以得到主人公的情感变化。显然，这种方法提供了更细的分析粒度，因为只用情感词典的话，词典之外的词都是无效的。

上面说的方法只是核心，作者还用了一些基于词语共现的分析手段做辅助验证。但总之都没什么问题。然后作者用这个分析了一波灰姑娘：在灰姑娘的故事里，灰姑娘一开始和父母生活在一起，是幸福的。然而，母亲离世，继母和两个女儿走进了她的生活。随后父亲离世，而继母又虐待她。她的生活随之走到谷底。她的生活在森林里第一次遇到王子时发生转变。在仙女的帮助下，灰姑娘在舞会上又遇到了王子。这一刻他的幸福感到达了最高潮。被迫离开误会让她幸福指数暂时下降，但随后与王子的重逢又让她过上了幸福生活…………

这个结果和我们的主观认知相符，看来也没啥问题。然后作者分析了一堆故事，还画了非常好看的图：

有位哲学家曾经说过：颜值就是正义。这图往这一摆，让人一看就想直接录用，有木有啊。最后作者还用了OLS结果实锤：男女主人公共同出现、与高幸福指数呈现显著正相关！在这一顿分析猛如虎之后，作者顺理成章的得出结论：

扫描二维码关注公众号，回复： 17341256 查看本文章

（这些文艺作品所暗示的价值观中）男人是女人的幸福之路

看到这，我觉得有点别扭。这个结果也许、可能、大概是对的，但是……好像转进的有点快。男女主人公在一起了导致幸福度高，能说明这个故事传达的价值观就是“女人应该依赖男人”吗？作者在文章里自己说了，通过词语共现的分析结果，女性角色常常与“家庭”、“浪漫”相关，男性角色常常与“犯罪”、“职业”相关，所以这表明了性别偏见。但我寻思，要是他分析的是个犯罪片里男角色的“肾上腺素飙升”指数，那肯定是犯罪的时候、正邪交锋的时候飙升指数高，这能说明啥呢？这故事传达的是男性应该犯罪？男性应该交锋？好像都有点别扭，因为这本来就是个犯罪片啊，不讲犯罪他还要干啥？同样的，像灰姑娘这种，本来就是个爱情故事，那爱情故事不就应该“有情人终成眷属”时开心吗？要不难道还双双被烧死时开心？

这方法和结论之间，压根没啥联系。

这就是统计没学好的人经常犯的错误：模型有内生性。内生性是啥意思呢？建模时候，对他分析这问题有用的因素压根没在他选的解释变量里。模型跑完一看，结果好，哟西，齐活了。其实导致这模型“效果好”的因素全在随机干扰项里呢，他用解释变量去解释模型，那解释的全是瞎扯淡呢。

这时候可能有人说了，可能女性喜欢爱情片、男性喜欢犯罪片，本身就是性别偏见导致的……噎死，很有可能，所以从这个角度分析这个问题，你应该考虑的是（受欢迎的）爱情片数量随什么因素而变化，从影响这个指标的因素里找有没有什么性别偏见。单纯揪着爱情片的故事文本分析，本质上只能得到“因为他想要甜甜的恋爱，所以他想要甜甜的恋爱”这种车轱辘话，你能分析出个什么呢？作者以为自己样本量够大就能得出什么了不起的结论，殊不知前提就错了，全是无用功。这篇文章证明了后验存在偏见，但结论是似然存在偏见，可是他却忽略了先验可能本身就存在偏见。

另外，即使你选择了爱情片数量这个角度，还是得警惕先天差异造成的影响。也就是你不能直接去比较男性和女性的爱情片爱好者数量，因为两性之间本来就有心理差异，你要分析的不是“两性之间有没有心理差异”（这个谁都知道，用不着你分析），要分析的是“这种心理差异”多大程度上由社会性别偏见导致（也就是说，先天因素占多少，后天社会影响占多少）。否则你就犯了和这文章一样的错误。另外即使这些你都懂了，还是要注意其它的内生性问题：比如你准备从时间维度上分析，搞了两个数据集，一个是每年的女权运动强度，一个是每年爱情片销量，然后数据一跑，惊奇发现，爱情片销量和女权运动一阶滞后呈强负相关！哟西！又齐活了。但你没仔细看，其实可能女权运动这几年就一个高峰，正好在那个高峰之后两年，出了牛逼的电影《战狼》（我胡说的），那年男的女的都去看战狼了，小破爱情片没人看了——你模型效果好，其实是你抽样数不够产生的假拟合，实际还是随机因素导致的。你要是又就这冲上去解释一波，还是瞎扯淡的。

从上面的分析我们可以看出，社会问题还是挺复杂的，分析的时候，你得有个中立的良好心态，还得有比较扎实的统计学功底……其实心态没有也没事，充其量是出不了成果，但要是统计学没学好……那你的文章可能只剩瞎扯淡了。

这篇文章我是在朋友圈里看到的。一看这文章作者（非一作），是南大传播学院的王老师，王老师可以算是国内社会计算领域的大拿了。但如果社会计算都按这么“计算”，那………………王老师的一些弟子还在评论和朋友圈里为这文章摇旗呐喊，我只能说………………

没学好统计学的下场

猜你喜欢