数据挖掘 数据属性和质量
数据挖掘
从大数据集中提取可以用于组织分析和受益的数据的过程。这个过程有助于识别模式并管理数据之间的关系,以预测商业问题。
数据属性
属性可以被定义为对象的特征或性质。对象由属性集描述,并称为实体的记录。实体由数据的一部分即属性描述。
例如:在学生数据库中,(姓名、学号、课程编号、分数)是提供的数据库中的属性。
属性类型
标称属性
它只提供足以区分对象的属性。例如姓名、学号、地址都是数据集中不同的对象。
序数属性
它是一种可能的值提供足够的信息来形成有意义的对象排序的属性。例如薪资范围、教育水平、排名等。
二进制属性
二进制属性的值只有0和1。0表示没有任何特征,1表示具有特定特征的添加。
数值属性
它是定量的,即数量可以用整数或实数表示。
它有两种类型−
- 区间标度属性 −
这种属性是用来测量等大小单位的刻度。例如以摄氏或华氏度度量的温度。
- 比例标度属性 −
比例对于比例标度属性来说都是重要的,既关于差异也关于比例。例如年龄、体重、薪水等。
数据质量
数据质量指的是为了使数据适用于组织所需的特定信息而实施的技术。满足需求的数据被认为是高质量数据,并且对于组织的决策具有高准确性。确保数据质量的六个主要因素−
准确性
数据必须反映现实世界的情况。由于各种原因,可能存在不准确的数据,例如人为或计算机错误。
完整性
完整性意味着可用的数据要有效地提供。不完整的数据可能会根据感兴趣的属性而发生。
一致性
它指的是在网络中使用的数据的一致性。不同位置存储的相似数据不应该有任何冲突。不正确的数据也会导致不一致。
及时性
数据在需要时可用。数据实时更新,以便使其可访问。有时用户没有更新数据或进行更正和调整会影响数据质量。
可信度
它指的是用户对数据的信任程度。用户认为数据是准确和正确的,以供未来分析使用。
可解释性
它指的是用户能够顺利理解数据的程度。数据存在于执行分析等任务的目的,但为了成功执行这些任务,数据必须是可解释的,用户可以在提供的数据上顺利执行任务。
结论
本文涵盖数据挖掘中的数据属性和质量。
数据属性是指对象的属性及其类型,即名义、序数、二进制和数值属性。名义属性区分对象之间的差异,序数属性为对象提供有意义的顺序,二进制属性表示缺乏特征和具体字符的添加,而数值属性具有量化性质。数据质量指的是组织在决策中使用的数据的质量。所使用的因素包括准确性、完整性和一致性。
及时性、可信度和可解释性。