机器学习 如何进行配对样本T检验

机器学习 如何进行配对样本T检验

在机器学习和数据科学中,许多统计检验被用于比较和找出变量之间的差异或数据的特征。这些检验主要是假设检验,其中定义了条件,并根据进行的不同检验,假设变量之间的关系。T检验也是一种统计检验类型,用于比较分类变量的不同组的平均值。

在本文中,我们将讨论配对T检验,这是统计学中一种扩展或类型的T检验,并讨论进行相同检验的过程。本文将帮助人们理解配对T检验的直觉,并在必要时能够进行相同的检验。

那么我们先从基础的T检验开始。

T检验是什么

T检验是一种用于比较分类变量不同组的平均值的统计检验。它用于检查组之间是否存在差异。有时它也用于特征选择,其中定义了假设,并根据基于p值和t值的假设接受或拒绝来选择和拒绝模型训练的特征。

在T检验中,我们基本上取不同组或类别的分类变量的平均值,然后进行比较以检查差异。

在这里,还计算了t值,然后将其与临界t值进行比较,如果计算出的t值大于临界t值,则拒绝原假设,并假设不同组的平均值之间存在差异。

现在在普通T检验的情况下,计算各个组的平均值,然后用于计算测试的t值,这有助于进行假设检验,基于此,拒绝和接受零假设和备择假设。

但在某些情况下,我们需要检查变量的变化率,或者我们有成对的观测值,其中数据是从同一类别收集的;在这种情况下,使用配对样本T检验。

让我们在下一节详细讨论这些。

什么是配对样本T检验

配对样本T检验也是一种T检验,用于比较不同组的平均值,但是这里计算的是组间的平均值差异,而不是计算组的个体平均值。

简单地说,它是一种在有配对样本的情况下使用的测试,如果我们想研究同一变量从两个组之间的平均值变化率。它计算组之间的平均值差异,然后计算t值。

简而言之,当我们有配对或相关的分类变量组时,使用配对T检验,这些组是数据中某个行动、事件或干预的结果,并且通过某种方式相关。

而普通T检验则用于拥有两个彼此无关的分类变量组的情况,这些组彼此无关。

现在让我们讨论进行配对T检验的工作流程。

进行配对T检验的工作流程

让我们逐步讨论进行配对T检验的各个步骤。

定义假设

进行任何假设检验的第一步是先定义假设。在这里定义了零假设和备择假设,并且根据检验结束时得到的t值来接受或拒绝它们。

收集成对数据

由于在此情况下进行成对t检验,所以数据将是成对数据,即数据样本将从同一类别的事件中成对采集。数据可以从相同的对象或在不同的时间间隔内与同一主题进行收集。

计算差异

现在对于每一对观测值,我们将计算不同组之间的值的差异。因此,在这里,对于两个组,我们将有观测值的某个索引的某个值;计算所有观测值的这些值之间的差异。

找到差异的均值

现在,因为我们有组观测值之间的差异,我们将取这些差异的均值。同样,在这一步中还将计算标准差。

找到t值

在这一步中,根据以下公式计算出t值:

T-均值差异-假设差异/ sqrt(S^2/n)

找到临界t值

下一步是找到t的临界值。在这里,使用自由度和显著性水平来获取样本的临界t值。

解释结果

现在比较测试结果;在这里计算了正常的计算t值和临界t值,如果计算的t值大于临界t值,则拒绝零假设。

进行成对t检验的示例

现在让我们以一个代码示例来更清楚地了解成对t检验。在这里,我们将使用一个包含500个观测值的虚拟数据集,然后对数据集进行常规和成对t检验。

import numpy as np
from scipy import stats
np.random.seed(42)

group_a = np.random.normal(loc=10, scale=2, size=500)
group_b = np.random.normal(loc=12, scale=2, size=500)

# Normal t-test
t_stat, p_value = stats.ttest_ind(group_a, group_b)

# Paired t-test
paired_diff = group_b - group_a
t_stat_paired, p_value_paired = stats.ttest_rel(group_b, group_a)

# The results
print("Normal t-test:")
print("t-statistic:", t_stat)
print("p-value:", p_value)

print("  
Paired t-test:")
print("t-statistic:", t_stat_paired)
print("p-value:", p_value_paired)

输出

Normal t-test:
t-statistic: -16.54353366592559
p-value: 1.638349016942478e-54

Paired t-test:
t-statistic: 15.951028260754956
p-value: 1.3798771823104818e-46

上述代码对样本数据进行了配对和正态t检验,并打印了对应的t值和p值的结果。这些值可以用于假设检验。

结论

在本文中,我们讨论了t检验和配对t检验,它们的意义、使用时机以及主要应用领域,并讨论了相关的工作流程和代码示例。这篇文章将帮助读者更清楚地理解配对t检验,并帮助读者进行对比不同变量组的配对t检验。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程