机器学习标准化与规范化

规范化和标准化是信息预处理中常用的两种策略，旨在将原始数据转化为适合分析和建模的合理形式。这些策略在机器学习中起着至关重要的作用，通过改善数据的特性，如其范围、分布和尺度。规范化将数据缩放到特定范围内，通常是0到1之间，同时保持特征之间的相对关系。然而，标准化将数据集中在其平均值，并将其缩放为标准差为1。在本文中，我们将探讨规范化和标准化的概念、技术以及它们在信息预处理流程中所带来的好处。

什么是规范化

规范化是一种数据预处理策略，将数据缩放到特定范围内，通常是0到1之间。它根据数据的范围相对地调整值，保持不同特征之间的相对关系。规范化在特征的尺度或单位不同时特别有用，并且保持它们的相对重要性是基本的。

规范化的方法包括根据数据的范围相对地调整值。一种常见的规范化方法是最小-最大缩放，将数据的最小值映射为0，最大值映射为1，其他值相应地进行缩放。

规范化有一些优点。首先，由于它相对地调整值，保持了特征之间的相对关系。这在比较具有不同尺度或单位的不同特征时尤为重要。此外，规范化有助于防止某些特征由于其较大的值而主导分析。确保每个特征对建模训练的贡献都相等。第三，规范化有助于提高某些机器学习算法的稳定性和可靠性，特别是那些基于距离计算的算法，如K-最近邻（KNN）和支持向量机（SVM）。最后，规范化使得数据更易于解释和理解，因为值被调整为共同的范围。

然而，规范化也存在一些限制需要考虑。一个主要限制是它对异常值的敏感性。由于规范化是基于数据的最小值和最大值，异常值可以明显影响规范化数据的范围和分布。具有异常值的特征可以扭曲规范化过程，导致失真的结果。因此，在应用规范化策略之前，适当处理异常值非常重要。

什么是标准化

当数据的分布很重要且去除尺度影响很重要时，标准化特别有用。标准化的方法包括将每个数据点减去平均值并除以标准差。

标准化具有几个优点。首先，它消除了数据的尺度影响，便于不同特征之间的比较。通过标准化数据，具有不同尺度和单位的特征被放置在一个共同的尺度上，方便了对它们相对重要性的分析和解释。此外，标准化减少了异常值对数据的影响。由于标准化是基于标准差的，与规范化相比，异常值对标准化数据的影响较小。这使得在存在异常值的情况下，标准化成为一种更强大的过程。第三，标准化对于某些机器学习算法特别有用，如线性回归和逻辑回归，这些算法依赖于具有平均值和类似尺度的特征进行准确的参数估计。

即便如此，值得注意的是，标准化并不能解决信息内部的偏斜分布问题。如果初始信息包含偏斜传播，标准化后的信息仍将保持相同的不均衡。在这种情况下，可能需要进行额外的调整来解决偏斜问题并使分布变得正常。

归一化与标准化

以下表格突出了它们之间的区别：

差异基础归一化标准化	归一化	标准化
方法	将信息缩放到特定范围，通常是0到1	将信息改变为具有零均值和单位变化
目的	归一化将信息缩放到特定范围，例如缩放到1。在绝对值不像相对关系那样重要时，归一化是有价值的。	标准化围绕平均值和变化1来调整和缩放信息。在信息的离散程度对于分析或建模很重要时，标准化是有价值的。
分布	归一化修改了信息的初始分布，可能会影响其形状。	标准化保留了信息的初始分布，确保其形状保持不变。
方差	归一化不保护信息的变化。	标准化将信息缩放使其变化为1，确保其具有可靠的范围。
应用案例	高亮显示具有不同尺度或单位的特征	在信息的分布和尺度很重要时。
可解释性	保持特征之间的相对关系。	平均值和标准差提供相关信息。

结论

标准化和归一化都是信息预处理中有利的过程。归一化将信息缩放到特定的范围内，保护了各个特征之间的相对关系。当特征需要改变比例或单位时，归一化是合适的。标准化将数据转换为均值为零、单位方差的形式，确保分布聚焦且适当缩放。当数据的分布和规模很重要时，标准化非常有用。了解这些方法的区别使数据科学家能够根据其数据的要求和他们要使用的机器学习算法来选择最合适的方法。