数据挖掘 数据预处理
数据预处理是数据挖掘的重要过程。在此过程中,原始数据被转换为可理解的格式,并准备好进行进一步的分析。目的是提高数据质量,并使其适用于特定任务。
数据预处理中的任务
数据清洗
数据清洗帮助我们从数据集中删除不准确、不完整和不正确的数据。数据清洗中使用的一些技术包括:
处理缺失值
当某些数据缺失时,可以使用以下方法来填充缺失值:
- 对于较小的数据集,可以手动使用标准值来填充缺失值。
-
对于正态分布和非正态分布的数据,可以使用属性的均值和中位数值来替代缺失值。
-
如果数据集非常大且有很多值在元组中缺失,可以忽略该元组。
-
在使用回归或决策树算法时,可以使用最适合的值。
噪音数据
噪音数据指的是机器无法解释且包含不必要错误数据的数据。处理噪音数据的方法包括:
- 分箱 - 该方法处理噪音数据以使其平滑。数据被平均分成箱子并存储,然后应用方法进行平滑或完成任务。方法有平均值平滑法(将箱值替换为均值),中位数平滑法(将箱值替换为中位数)和边界平滑法(使用最小/最大箱值,并将其替换为最接近的边界值)。
-
回归 - 使用回归函数来平滑数据。回归可以是线性的(包含一个独立变量)或多元的(包含多个独立变量)。
-
聚类 - 用于将相似的数据分组成聚类,并用于查找异常值。
数据整合
将来自多个来源(数据库、电子表格、文本文件)的数据组合成单个数据集的过程。在此过程中,创建了数据的单一和一致的视图。数据整合过程中的主要问题有模式整合(集成来自各个来源的数据集)、实体识别(识别不同数据库中的实体)以及检测和解决数据值概念。
数据转换
在这个部分中,为了使数据适合挖掘过程,改变数据的格式或结构。数据转换的方法有:
归一化 - 将数据缩放到特定较小范围(-1.0 到 1.0)的方法。
离散化 - 它有助于减少数据大小,并将连续数据划分为区间。
属性选择 - 从给定的属性中派生新属性,以帮助挖掘过程。
概念层次生成 − 在这个过程中,属性从底层逐渐转变为高层次。
聚合 − 在这个过程中,根据数据的质量和数量进行数据的汇总存储,以使结果更加优化。
数据降维
通过减少数据存储来提高存储效率,并通过产生几乎相同的结果来简化分析。处理大量数据时分析变得更加困难,因此降维用于摆脱这种困扰。
数据降维的步骤如下:
数据压缩
对数据进行压缩以进行有效的分析。无损压缩是指在压缩过程中没有数据丢失的情况下进行的压缩。有损压缩是指在压缩过程中删除了不必要的信息。
数量减少
减少数据量,即只存储数据模型而不是整个数据,从而提供了更小的数据表示,而不会丢失任何数据。
维度减少
在这个过程中,减少属性或随机变量,以使数据集维度降低。属性被合并而不会丢失其原有特征。
结论
本文包括数据预处理,有助于将数据转换为可用格式。帮助数据预处理的任务包括数据清理、数据集成、数据转换和数据降维。数据清理通过处理缺失值和平滑噪声(使用分箱、回归和聚类)来删除不完整的数据。数据集成将来自多个来源的数据合并为一个数据集。数据转换通过使用离散化、属性选择、概念层次生成和聚合来改变数据的格式,使其可以用于挖掘。数据降维通过一些步骤(如数据压缩、数量减少和维度减少)帮助减少数据存储,使分析工作更加容易。