理解精确率和召回率
介绍
当我们创建任何机器学习模型时,脑海中首先出现的是如何创建一个准确的模型以及在此过程中会出现什么问题。在机器学习中,最关键且令人困惑的概念是召回率和精确率。在机器学习中,用于模式识别和分类的性能指标包括精确率和召回率。构建一个无瑕疵的机器学习模型,产生更精确和准确的结果,需要理解这些概念。在机器学习中,有些模型需要更高的召回率,而有些模型需要更高的精确率。因此,理解准确率-召回率权衡,或者简单地说,精确率和召回率的平衡,是至关重要的。
在这篇文章中,我们将解释精确率和召回率,这两个最具挑战性和关键的机器学习主题将会在许多专业人士整个数据科学和机器学习职业生涯中遇到。但首先,我们必须理解混淆矩阵的概念。
机器学习中的混淆矩阵
混淆矩阵是一个显示机器学习模型表现或生成预测的工具。
使用混淆矩阵,我们可以看到我们的模型在试图区分两个类别时出现了哪些错误。一个 2 x 2 的矩阵,其中行表示实际真实标签,列表示预测标签,使其易于理解。
Predicted | |||
---|---|---|---|
Actual | Positive | Negative | |
Positive | True Positive | False Negative | |
Negative | False Positive | False Negative |
此矩阵有四个主要组成部分,每个部分都提供不同的衡量准确和不准确预测数量的方法。每个元素包含两个词,其中一个是True或False,阳性或阴性。
如果预测和实际标签一致,预测被认为是正确的,但如果预测和实际标签不匹配,则预测被认为是错误的。此外,矩阵中的预测标签由阳性和阴性表示。
混淆矩阵有四个度量组合,如下所示−
- 真阳性 − 此组合显示模型正确将阳性样本标记为阳性的频率。
-
假阴性 − 此组合显示模型将不正确的阳性样本识别为阴性样本的频率。
-
假阳性 − “假阳性”一词表示模型将阴性样本错误分类为阳性的次数。
-
真阴性 − 此组合显示模型正确地将阴性样本识别为阴性的频率。
精确率
精确率是将被准确分类为阳性的样本数(真阳性)与总阳性分类样本数进行比较的比例(无论是正确还是错误分类)。
因此,精确率有助于了解机器学习模型在分类为阳性的模型中的可靠性。
精确率 = TP / ( TP + FP)
我们可以用它来衡量模型对阳性样本的分类能力。在计算模型的精确率时,必须考虑到被识别的阳性和阴性数据。当模型将大部分阳性样本正确识别为阳性,同时识别了大量假阳性样本时,认为模型具有高召回率和低精确率。要确定机器学习模型的准确性,需要考虑到阴性和阳性样本。在精确率中,无论正确还是错误的识别为阳性的所有阳性样本都应被纳入考虑。
召回率
召回率被确定为适当识别为阳性的阳性样本数与所有阳性样本数的比例。召回率衡量模型识别阳性样本的能力。识别的阳性样本越多,召回率越大。
召回率 = TP/TP+FN
与精确率相比,召回率不受不正确样本分类数目的影响。如果模型将所有阳性数据标记为阳性,则召回率为1。
它有助于量化ML模型正确识别的阳性样本数量。确定模型的召回率只需要阳性样本,而忽略所有阴性样本。如果机器学习模型只能将少量阳性样本分类为阳性,同时将一个样本分类为阳性,则认为它具有高准确性、高精确率和低召回率。模型的召回率受到阳性样本的影响,但不受负样本的影响。正确识别所有阳性样本对于计算召回率至关重要。它不考虑任何将阴性样本分类为阳性的情况。
为什么在机器学习模型中使用精确率和召回率
所有的数据科学家和机器学习工程师经常问彼此这个问题。根据处理的问题类型不同,使用精确度和召回率的方法也不同。如果需要将正样本和负样本都归类为正样本,无论分类是否准确,可以使用精确度。另一方面,如果你的目标是找到正样本,那么使用召回率。在这种情况下,负样本的标签是否正确并不重要。
结论
对于使用机器学习模型进行二元分类的情况,本课程涵盖了各种性能度量,包括混淆矩阵、精确度和召回率。此外,我们还看到了如何确定机器学习模型的精确度和召回率以及何时使用每种方法。