Kolmogorov-Smirnov检验如何操作|极客笔记

Kolmogorov-Smirnov检验如何操作

Kolmogorov-Smirnov检验（Kolmogorov-Smirnov test），简称KS检验，是一种非参数检验方法，用于检验样本是否符合某一分布。它的原假设是样本数据服从某一特定的分布，备择假设是样本数据不服从该分布。KS检验的优点是适用范围广泛，不需要对总体参数做出假设，对数据的分布类型没有要求，可以检验离散的和连续的分布。

在KS检验中，我们会计算样本数据与理论分布的累积分布函数之间的最大差值，然后根据这个差值来判断样本数据是否符合理论分布。在进行KS检验之前，需要明确以下几个步骤：

步骤1：确定检验的零假设和备择假设

在进行KS检验时，我们需要明确我们要检验的零假设和备择假设。通常情况下，零假设是样本数据符合某一特定分布，备择假设是样本数据不符合该分布。

步骤2：计算累积分布函数

接下来需要计算出样本数据的经验累积分布函数（ECDF）和理论分布的累积分布函数（CDF）。ECDF是统计中常用的一种方式，用于描述样本数据的分布情况。CDF则是根据理论分布计算出的累积分布函数。

步骤3：计算最大差值

利用计算出来的ECDF和CDF，我们可以得到最大差值，即KS统计量。KS统计量的计算公式如下：

[ D = \max|F_n(x) – F(x)| ]

其中，( F_n(x) ) 为ECDF，( F(x) ) 为CDF。KS统计量的值越小，说明样本与理论分布的拟合度越好。

步骤4：计算p值

最后，我们需要根据KS统计量的值计算出p值。p值表示在假设成立的情况下，观察到样本数据的概率。如果p值小于显著性水平（通常取0.05），则拒绝零假设，认为样本数据不符合该分布。反之，则接受零假设，认为样本数据符合该分布。

示例代码

下面以Python为例，演示如何进行KS检验：

import numpy as np
from scipy.stats import kstest, norm

# 生成服从正态分布的随机样本
sample = np.random.normal(0, 1, 100)

# 进行KS检验
ks_statistic, p_value = kstest(sample, 'norm')

# 输出结果
print(f'KS统计量：{ks_statistic}')
print(f'p值：{p_value}')