数据挖掘过程
从大型数据集中提取可用于分析和组织受益的数据的过程。数据挖掘过程通常包括以下步骤-
业务理解
需要理解业务和客户目标。定义客户需求,然后使用情景来定义数据挖掘目标。
数据理解
从不同的来源收集数据并进行探索,以了解数据的属性和特征。
数据准备
所收集的数据现在被选择、清洗、转换、预处理和构建,以便为分析做好准备。这个过程占据了项目的大部分时间。
建模
使用数学模型和算法来获取数据。通过利益相关者评估建模技术或模型,以获取用于数据集的结果数据。
评估
评估已识别的结果或模式,以检查是否符合业务目标。
部署
创建部署计划并生成报告,以帮助改进业务决策。
数据挖掘过程
提出问题和假设
在这部分中,从一个团队获取问题,并提出初始假设。数据挖掘专家与应用专家之间进行深入的对话,制定假设,并在整个数据挖掘过程中持续进行。
数据收集
这一步骤处理数据如何从不同的来源收集。有两种情况下收集数据。第一种情况是专家控制数据生成过程,该过程经过良好设计和理解。第二种情况是专家无法影响数据生成过程,采用观察方法随机生成数据。数据收集程序在某些情况下隐含采样分布部分或全部未知。为了在最终结果中利用估计模型,有必要了解数据收集如何与其分布相矛盾,因为数据将用于建模、结果的最终解释和估计模型。
数据预处理
在这个过程中,原始数据被转换为可理解的格式,并准备好进行进一步分析。目的是提高数据质量,使其适用于特定任务。
通常有至少两个任务-
离群值检测和消除
离群值是无法用于观察的非特定数据。它们包含错误和异常值,可能会对模型造成伤害。可以通过检测和删除离群值或使用对离群值不敏感的强健建模方法来处理。
缩放和编码
变量缩放和编码被用于调整它们的权重,以帮助分析。应用特定的编码通过实现降维来提供更小的信息。
估计模型
这个阶段有助于选择最适合的数据挖掘技术。首先在不同的模型上进行实施,然后选择最简单的模型进行进一步处理。
解释模型和得出结论
简单的模型是可解释的,但准确性较低。新一代的数据挖掘模型希望通过使用高维模型提供高准确度。使用特定的技术来验证通过解释这些模型得出的结果。
结论
这篇文章包括数据挖掘过程,其中涉及的步骤包括业务理解、数据理解、数据准备、建模、评估和部署。数据挖掘过程包括5个部分。第一部分是陈述问题和制定假设,明确问题并应用假设。第二部分是数据收集,从不同来源收集数据。第三部分是数据预处理,通过使用异常检测/删除、缩放和编码将数据转换为可理解的形式。第四部分是估计模型,帮助选择适当的简单模型进行分析。第五部分是解释模型和得出结论,指使用模型进行解释并得出高准确度的结论。