辛普森悖论是一个统计学悖论,指的是当我们分别对几组数据进行分析时,得出的结论和总体数据的结论会截然不同。
这是因为在不同的数据集中,存在不同的变量和关系,而且这些变量和关系的影响很可能会互相抵消或放大。
因此,对于一组数据集的结论不能简单地移植到其他数据集中。
例如,对于一组数据,A对B具有更强的影响力,但在另一组数据中,B对C具有更强的影响力。
因此,单纯依据局部数据而得出结论是不可靠的,需要进行更全面的分析和判断。
当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。