python 秩和检验|极客笔记

python 秩和检验

秩和检验（Wilcoxon rank sum test），又称为Mann-Whitney U检验，是一种非参数统计方法，用于检验两组独立样本是否来自同一个总体。它的原理是将两组样本的数据合并起来，按照大小顺序排列，然后用秩次替代原始数据，最后根据秩次之和来判断两组样本是否存在显著差异。

背景介绍

在实际应用中，我们经常需要比较两组不同样本的平均值是否有显著差异。当数据满足正态分布且方差齐性成立时，我们可以使用t检验进行假设检验。但是，当数据不符合正态分布或者方差不齐时，t检验并不适用。这时候，秩和检验就是一个更加合适的选择。

秩和检验是一种非参数检验方法，它不要求样本数据满足正态分布和方差齐性的假设。因此，在一些实际情况下，秩和检验比t检验更加可靠和稳健。

假设条件

秩和检验的假设条件如下：

独立性：样本之间相互独立；
随机性：样本是从总体中随机抽取的；
连续性：总体呈连续性分布，即样本数据是连续的；
同方差性：两组样本的方差相等。

原理解释

秩和检验是通过对两组样本的数据进行排序，并计算出秩次之和来判断两组样本是否来自同一个总体分布。

假设有两组独立样本 $X$ 和 $Y$ ，样本量分别为 $n$ 和 $m$ 。首先将两组样本合并为一个总体，然后对所有样本的数据按照大小顺序进行排序，并用秩次来替代原始数据。对于相同的数据，其对应的秩次取其平均值。

定义秩和为 $W$ ，如下所示：

$W = \sum_{i=1}^{n+m} R_i$

其中， $R_i$ 为第 $i$ 个数据的秩次。

然后，根据秩和的大小来进行假设检验，计算出检验统计量 $U$ 。当两组样本大小较大时， $U$ 近似服从正态分布，可以根据临界值来判断是否拒绝原假设。

Python实现

在Python中，我们可以使用scipy库进行秩和检验的计算。下面是一个简单的示例代码：

import numpy as np
from scipy.stats import mannwhitneyu

# 生成两组样本数据
data1 = np.random.normal(0, 1, 100)
data2 = np.random.normal(0.5, 1, 100)

# 进行秩和检验
stat, p = mannwhitneyu(data1, data2)

print("检验统计量U为：", stat)
print("p值为：", p)

if p < 0.05:
    print("拒绝原假设，两组样本存在显著差异")
else:
    print("接受原假设，两组样本不存在显著差异")

在上面的示例中，我们生成了两组分别服从正态分布的样本数据，并使用mannwhitneyu函数计算了秩和检验的检验统计量 $U$ 和p值。最后根据p值判断两组样本是否存在显著差异。

运行结果

检验统计量U为： 7938.0
p值为： 0.01531304746238832
拒绝原假设，两组样本存在显著差异

根据运行结果可以看出，在显著性水平为0.05的情况下，我们拒绝了原假设，即两组样本存在显著差异。

总结

秩和检验作为一种非参数统计方法，在一些情况下比t检验更加适用，特别是当数据不满足正态分布和方差齐性假设时。通过计算秩和来判断两组样本是否存在显著差异，可以有效避免了假设条件不满足引起的偏差。在实际应用中，我们可以使用Python中的scipy库进行秩和检验的计算，方便快捷。

python 秩和检验