机器学习 如何进行配对样本T检验
在机器学习和数据科学中,许多统计检验被用于比较和找出变量之间的差异或数据的特征。这些检验主要是假设检验,其中定义了条件,并根据进行的不同检验,假设变量之间的关系。T检验也是一种统计检验类型,用于比较分类变量的不同组的平均值。
在本文中,我们将讨论配对T检验,这是统计学中一种扩展或类型的T检验,并讨论进行相同检验的过程。本文将帮助人们理解配对T检验的直觉,并在必要时能够进行相同的检验。
那么我们先从基础的T检验开始。
T检验是什么
T检验是一种用于比较分类变量不同组的平均值的统计检验。它用于检查组之间是否存在差异。有时它也用于特征选择,其中定义了假设,并根据基于p值和t值的假设接受或拒绝来选择和拒绝模型训练的特征。
在T检验中,我们基本上取不同组或类别的分类变量的平均值,然后进行比较以检查差异。
在这里,还计算了t值,然后将其与临界t值进行比较,如果计算出的t值大于临界t值,则拒绝原假设,并假设不同组的平均值之间存在差异。
现在在普通T检验的情况下,计算各个组的平均值,然后用于计算测试的t值,这有助于进行假设检验,基于此,拒绝和接受零假设和备择假设。
但在某些情况下,我们需要检查变量的变化率,或者我们有成对的观测值,其中数据是从同一类别收集的;在这种情况下,使用配对样本T检验。
让我们在下一节详细讨论这些。
什么是配对样本T检验
配对样本T检验也是一种T检验,用于比较不同组的平均值,但是这里计算的是组间的平均值差异,而不是计算组的个体平均值。
简单地说,它是一种在有配对样本的情况下使用的测试,如果我们想研究同一变量从两个组之间的平均值变化率。它计算组之间的平均值差异,然后计算t值。
简而言之,当我们有配对或相关的分类变量组时,使用配对T检验,这些组是数据中某个行动、事件或干预的结果,并且通过某种方式相关。
而普通T检验则用于拥有两个彼此无关的分类变量组的情况,这些组彼此无关。
现在让我们讨论进行配对T检验的工作流程。
进行配对T检验的工作流程
让我们逐步讨论进行配对T检验的各个步骤。
定义假设
进行任何假设检验的第一步是先定义假设。在这里定义了零假设和备择假设,并且根据检验结束时得到的t值来接受或拒绝它们。
收集成对数据
由于在此情况下进行成对t检验,所以数据将是成对数据,即数据样本将从同一类别的事件中成对采集。数据可以从相同的对象或在不同的时间间隔内与同一主题进行收集。
计算差异
现在对于每一对观测值,我们将计算不同组之间的值的差异。因此,在这里,对于两个组,我们将有观测值的某个索引的某个值;计算所有观测值的这些值之间的差异。
找到差异的均值
现在,因为我们有组观测值之间的差异,我们将取这些差异的均值。同样,在这一步中还将计算标准差。
找到t值
在这一步中,根据以下公式计算出t值:
T-均值差异-假设差异/ sqrt(S^2/n)
找到临界t值
下一步是找到t的临界值。在这里,使用自由度和显著性水平来获取样本的临界t值。
解释结果
现在比较测试结果;在这里计算了正常的计算t值和临界t值,如果计算的t值大于临界t值,则拒绝零假设。
进行成对t检验的示例
现在让我们以一个代码示例来更清楚地了解成对t检验。在这里,我们将使用一个包含500个观测值的虚拟数据集,然后对数据集进行常规和成对t检验。
import numpy as np
from scipy import stats
np.random.seed(42)
group_a = np.random.normal(loc=10, scale=2, size=500)
group_b = np.random.normal(loc=12, scale=2, size=500)
# Normal t-test
t_stat, p_value = stats.ttest_ind(group_a, group_b)
# Paired t-test
paired_diff = group_b - group_a
t_stat_paired, p_value_paired = stats.ttest_rel(group_b, group_a)
# The results
print("Normal t-test:")
print("t-statistic:", t_stat)
print("p-value:", p_value)
print("
Paired t-test:")
print("t-statistic:", t_stat_paired)
print("p-value:", p_value_paired)
输出
Normal t-test:
t-statistic: -16.54353366592559
p-value: 1.638349016942478e-54
Paired t-test:
t-statistic: 15.951028260754956
p-value: 1.3798771823104818e-46
上述代码对样本数据进行了配对和正态t检验,并打印了对应的t值和p值的结果。这些值可以用于假设检验。
结论
在本文中,我们讨论了t检验和配对t检验,它们的意义、使用时机以及主要应用领域,并讨论了相关的工作流程和代码示例。这篇文章将帮助读者更清楚地理解配对t检验,并帮助读者进行对比不同变量组的配对t检验。