辛普森悖论:同一个数据集得出两个完全相反的证据?
2018-11-04 MedSci MedSci原创
辛普森悖论告诉我们,数据不是绝对客观的。 想象一下,你和你的小伙伴正在努力寻找一个完美的餐厅,以便愉快的享用晚餐。我们清楚这个过程可能会花费数小时去争论,你会找到现代生活的便利之处:在线评论。通过在线评论,你找到了自己的选择,推荐 Carlo's 餐厅的男女用户的比例都高于你的小伙伴选择的 Sophia's 餐厅。然而,正当你准备宣布胜利时,你的小伙伴使用相同的数据得到,由于所有用户中推
辛普森悖论告诉我们,数据不是绝对客观的。 想象一下,你和你的小伙伴正在努力寻找一个完美的餐厅,以便愉快的享用晚餐。我们清楚这个过程可能会花费数小时去争论,你会找到现代生活的便利之处:在线评论。通过在线评论,你找到了自己的选择,推荐 Carlo's 餐厅的男女用户的比例都高于你的小伙伴选择的 Sophia's 餐厅。然而,正当你准备宣布胜利时,你的小伙伴使用相同的数据得到,由于所有用户中推荐选择 Sophia 的百分比较高,因此很明显要选择它。 到底是怎么回事?谁在说谎?是审计网站的计算错误吗?事实上,你和你的小伙伴都是对的,你在不知不觉中进入了辛普森悖论的世界。在辛普森悖论里,餐馆可以同时比竞争对手更好和更差,运动可以降低并增加疾病的风险,同样的数据集可以用来证明两个相反的论点。也许你和你的伴侣应该在晚上讨论这个引人入胜的统计学现象,而不是出去吃饭。 当原本分离的数据被组合起来,之前出现的统计现象会发生逆转,这时辛普森悖论就发生了。在餐厅推荐示例中,就男女的高推荐率确实可以推荐 Carlo's 而不是 Sophia's,且同时所有评价者对 Carlo's 的推荐率较低。在你说这不可能之
作者:MedSci
版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#辛普森悖论#
26
很好的学习机会
65