机器学习 假阳性与假阴性
介绍
准确预测与不准确预测的比例在一个被称为混淆矩阵的矩阵中进行绘制。这将涉及真阴性和真阳性(正确预测)与假阴性和假阳性(错误预测)的比例,用于二元分类器(错误预测)。在数据清洗、预处理和解析之后,我们首先要做的是将数据输入到一个高效的模型中,该模型自然而然地生成概率结果。等一下!但是我们如何评估我们模型的性能呢?
更高的性能,更好的效果-这正是我们想要的。这就是混淆矩阵出现的时候。混淆矩阵是机器学习分类的一个过程评估。本文将介绍假阳性与假阴性之间的差异。
混淆矩阵
它是使用机器学习的分类问题的绩效指标,其输出可以是两个或更多的类别。表中有四种可能的预测值和实际值的组合。
与混淆矩阵相关联的术语为:
- 真阳性 - 实际值和预测值都是阳性的情况。
-
真阴性 - 实际值和预测值都是阴性的情况。
-
假阳性 - 实际值为阴性,预测值为阳性的情况。
-
假阴性 - 实际值为阳性,预测值为阴性的情况。
混淆矩阵的格式如下:
让我们来看一个例子:
假设我们想要弄清楚通过血液癌症测试能够多好地预测一个患者的感染状态。这里的冠状病毒检测用于区分两种可能的状态:感染和正常。
- 真阳性 - 分类器表明该人感染了,第二次癌症测试证实了这一发现。因此,测试是正确的。
-
假阳性 - 一个人的初步测试结果是阳性的,但后续的PCR测试揭示出这个人实际上是阴性的,没有感染。
-
真阴性 - 分类器将快速测试分类为阴性,而这个人实际上没有感染。
-
假阴性 - 分类器将快速测试分类为阳性,但这个人实际上是感染的,不健康的,所以测试结果应该是阴性的。
假阳性与假阴性的区别
以下是假阳性和假阴性之间的一些主要区别:
False Positive(假阳性) | False Negative(假阴性) |
---|---|
实际值为负,而预测值为正的情况 | 实际值为正,而预测值为负的情况。 |
也被称为“Type I error”(一类错误) | 也被称为“Type II error”(二类错误) |
通过一个具有True和False两个类别的二元分类示例,你可以更好地理解这个概念。假阳性值是那些被假设属于“True”类别的,实际上却不属于该类别,而是属于“False”类别的值。 | 通过一个具有True和False两个类别的二元分类场景,你可以更好地理解这个概念。假阴性值是那些被假设属于“False”类别的,实际上却属于“True”类别的值。 |
这显示了分类器错误预测所得期望结果的频率。 | 这个错误显示了分类器错误预测不希望结果的频率。 |
假阳性率(也称为fall-out)可以定义为假阳性和真阴性之和的比率。 | 假阴性率是假阴性与假阴性和真阳性之和的比率,通常被称为漏报率。 |
一个正常邮件被错误地识别为垃圾邮件。 | 一个垃圾邮件被错误地识别为正常邮件。 |
结论
在本文中,我们了解了虚假正例和虚假反例之间的区别。我们如何评估机器学习模型将决定其成功与否。要公正地评估模型的性能,需要进行彻底的模型分析。
我们已经了解了如何检查机器学习分类器或模型是否正确预测了值,以及使用混淆矩阵评估模型的准确性。因此,混淆矩阵有助于评估分类器。它包含了四个字段,即真正例、真反例、虚假正例和虚假反例。