机器学习如何进行配对样本T检验

在机器学习和数据科学中，许多统计检验被用于比较和找出变量之间的差异或数据的特征。这些检验主要是假设检验，其中定义了条件，并根据进行的不同检验，假设变量之间的关系。T检验也是一种统计检验类型，用于比较分类变量的不同组的平均值。

在本文中，我们将讨论配对T检验，这是统计学中一种扩展或类型的T检验，并讨论进行相同检验的过程。本文将帮助人们理解配对T检验的直觉，并在必要时能够进行相同的检验。

那么我们先从基础的T检验开始。

T检验是什么

T检验是一种用于比较分类变量不同组的平均值的统计检验。它用于检查组之间是否存在差异。有时它也用于特征选择，其中定义了假设，并根据基于p值和t值的假设接受或拒绝来选择和拒绝模型训练的特征。

在T检验中，我们基本上取不同组或类别的分类变量的平均值，然后进行比较以检查差异。

在这里，还计算了t值，然后将其与临界t值进行比较，如果计算出的t值大于临界t值，则拒绝原假设，并假设不同组的平均值之间存在差异。

现在在普通T检验的情况下，计算各个组的平均值，然后用于计算测试的t值，这有助于进行假设检验，基于此，拒绝和接受零假设和备择假设。

但在某些情况下，我们需要检查变量的变化率，或者我们有成对的观测值，其中数据是从同一类别收集的；在这种情况下，使用配对样本T检验。

让我们在下一节详细讨论这些。

什么是配对样本T检验

配对样本T检验也是一种T检验，用于比较不同组的平均值，但是这里计算的是组间的平均值差异，而不是计算组的个体平均值。

简单地说，它是一种在有配对样本的情况下使用的测试，如果我们想研究同一变量从两个组之间的平均值变化率。它计算组之间的平均值差异，然后计算t值。

简而言之，当我们有配对或相关的分类变量组时，使用配对T检验，这些组是数据中某个行动、事件或干预的结果，并且通过某种方式相关。

而普通T检验则用于拥有两个彼此无关的分类变量组的情况，这些组彼此无关。

现在让我们讨论进行配对T检验的工作流程。

进行配对T检验的工作流程

让我们逐步讨论进行配对T检验的各个步骤。

定义假设

进行任何假设检验的第一步是先定义假设。在这里定义了零假设和备择假设，并且根据检验结束时得到的t值来接受或拒绝它们。

收集成对数据

由于在此情况下进行成对t检验，所以数据将是成对数据，即数据样本将从同一类别的事件中成对采集。数据可以从相同的对象或在不同的时间间隔内与同一主题进行收集。

计算差异

现在对于每一对观测值，我们将计算不同组之间的值的差异。因此，在这里，对于两个组，我们将有观测值的某个索引的某个值；计算所有观测值的这些值之间的差异。

找到差异的均值

现在，因为我们有组观测值之间的差异，我们将取这些差异的均值。同样，在这一步中还将计算标准差。

找到t值

在这一步中，根据以下公式计算出t值：

T-均值差异-假设差异/ sqrt（S^2/n）

找到临界t值

下一步是找到t的临界值。在这里，使用自由度和显著性水平来获取样本的临界t值。

解释结果

现在比较测试结果；在这里计算了正常的计算t值和临界t值，如果计算的t值大于临界t值，则拒绝零假设。

进行成对t检验的示例

现在让我们以一个代码示例来更清楚地了解成对t检验。在这里，我们将使用一个包含500个观测值的虚拟数据集，然后对数据集进行常规和成对t检验。

import numpy as np
from scipy import stats
np.random.seed(42)

group_a = np.random.normal(loc=10, scale=2, size=500)
group_b = np.random.normal(loc=12, scale=2, size=500)

# Normal t-test
t_stat, p_value = stats.ttest_ind(group_a, group_b)

# Paired t-test
paired_diff = group_b - group_a
t_stat_paired, p_value_paired = stats.ttest_rel(group_b, group_a)

# The results
print("Normal t-test:")
print("t-statistic:", t_stat)
print("p-value:", p_value)

print("  
Paired t-test:")
print("t-statistic:", t_stat_paired)
print("p-value:", p_value_paired)

输出

Normal t-test:
t-statistic: -16.54353366592559
p-value: 1.638349016942478e-54

Paired t-test:
t-statistic: 15.951028260754956
p-value: 1.3798771823104818e-46

上述代码对样本数据进行了配对和正态t检验，并打印了对应的t值和p值的结果。这些值可以用于假设检验。