正则化 – 它解决了哪些问题
简介
数据模型将数据项之间的关系以及与模型原始目的所需的特征的关系进行分组和标准化。用于机器学习模型训练和评估的数据有可能构建一个解决方案或一组解决方案。通过使用正则化技术,可以避免模型定义不清晰且对最终数据变化特别敏感的问题。数据或数据输入过程中的错误或问题可能导致解决方案更加不准确。通过改变过程以考虑错误和未来限制,可以生成高度准确和有用的模型。
正则化
它指的是通过提供额外信息来防止模型过度拟合的一种方法。
过拟合
你的机器学习模型在训练数据上可能表现得很好,但在测试数据上表现很差。在处理新的数据集时引入了输出中的噪声,这意味着模型无法预测结果,因此被称为过拟合。
偏差
它是模型为了更好地理解函数而做的假设。基本上,它指的是训练数据的错误率。每当错误率显著时,我们将其称为高偏差,如果错误率很小,我们将其称为低偏差。
方差
方差是训练数据和测试数据集的错误率之间的差异。每当错误之间的差距较小时,方差被认为是低的,而当差距较大时,它被认为是高的。通常,我们希望使用更小的方差来推广我们的模型。
算法
- Leso回归
-
Ridge回归
-
Drop out回归
-
数据增强回归
-
提前停止回归
Leso回归
可以将权重值降低到零。这通过加快数据受到激活函数影响的速度来影响输出。L1正则化对于模型压缩是一种有帮助的方法。在压缩模型时,了解权重的总幅度始终保持正值甚至可能为零是有益的。正则化参数lambda基于哪个值提供最佳结果来决定。使用L1正则化可以创建一个稀疏模型。由于无法进行标准化,可能需要算法来对基于梯度的学习模型进行更改。
Ridge回归
L2正则化被称为”权重衰减”。通过减少权重的大小来避免过拟合。该方法基于一种假设,即随着加权因子的增加,错误的可能性也增加。降低权重值的目标是减少错误的可能性。与L1正则化相比,权重的值不能为0.权重乘以正则化参数(lambda)的平方根。随着lambda值的增加,权重将减小。为了检查结果并选择最佳的lambda值,使用交叉验证方法来正确估计未知数据的结果。
Dropout回归
Dropout正则化是完全任意地排除各种神经网络节点、输入和输出链接的方法。每个节点上给出了输入、输出、传输函数和加权输入的链接。每个节点都对神经网络的输出有影响。每个网络中可能存在多个节点。在删除之后,一个节点将完全从网络中排除。被删除的节点会在每个周期中发生变化,从而改变结果。由于其可靠性和积极的结果,Dropout经常在工作场所中使用。它对同时训练具有不同拓扑结构的多个神经网络非常有效。Dropout会带来诸如嘈杂的训练环境等挑战。鉴于Dropout重复稀疏激活,网络必须学习稀疏表示。在训练过程中通过随机子采样对层输出进行采样,从而降低了网络的容量。
数据增强回归
通过翻转、镜像、旋转等方式从现有训练集中生成新的训练集,数据增强通过人为增加原始训练数据集的大小来进行正则化。如果数据集的规模不足以产生准确的结果,可以通过使用数据增强来提高模型的准确性。通过扩充数据集可以考虑到各种情况,从而增加模型的数据集。
早停止正则化
早停止正则化在验证误差达到最低水平时停止训练。梯度下降用于调整模型。验证误差检查模型输出,以确定它们是否准确描述数据并量化变量之间的关系。当验证误差停止减少并开始增加时,这表明过拟合。数据被分为测试集,并评估每个集合的网络性能。完成后,只保留表现最佳的模型。
结论
正则化是通过提供额外信息来防止模型过度拟合的方法。L1正则化是一种有用的模型压缩方法。在压缩模型时,了解权重的总大小始终保持为正且可能为零是有益的。Dropout正则化完全任意地排除各种神经网络节点、输入和输出链接。通过减小权重的大小来避免过拟合。即使原始训练数据集的规模不足以产生准确的结果,也可以使用数据增强来增加其大小。