数据挖掘 多维关联规则

数据挖掘 多维关联规则

关联规则挖掘帮助我们找出大数据集中的关联关系。

在多维关联中,

  • 多维关联规则由多个方面组成

  • 数值属性应进行离散化处理。

  • 属性可以是未减轻或定量的。

  • 定量特征是数值的,并具有等级顺序。

挖掘多维关联规则的三种方法是−

使用定性属性的静态离散化

离散化在挖掘之前进行,并且是静态的。离散化属性被视为绝对的,并使用称为Apriori算法的算法来搜索所有的k-频繁谓词集(需要k 或k+1个表扫描)。频繁谓词集的每个子集应连续。数据立方体最适合挖掘,因为它们有助于加快挖掘速度。谓词单元格与n维数据立方体的单元格相关联。

例子 − 在一个数据立方体中,3D立方体(id,name,class)是频繁的,那么它表明(id,name),(name,class),(id,class)也是频繁的。

使用定性属性的动态离散化

也称为挖掘定量关联规则,数值属性是动态离散化的。

例子

age(A,"12..25")Λrank(A,"1..4")Λgets(A,"laptop computer")

输出

item rank1 rank2 rank3 rank4
age,22-25
age,18-21
age,12-17

在这里,属性被分为若干个区间,并基于数据分布进行分类。这些区间可以进一步合并进行分析,因此具有离散化的动态性。

元组的网格

基于聚类的距离离散化

这是一个考虑感兴趣数据之间距离的动态离散化过程。

挖掘过程包括两个步骤:

  • 通过执行聚类找到所涉及属性的间隔。

  • 通过搜索一起出现的聚类组来获取关联规则。

    注意 −关联规则中的前提和结果部分的聚类强相关并一起出现。

结论

本文介绍了使用多维关联规则进行数据挖掘,帮助找到数据集之间的关系,然后通过不同的方法(离散化)来执行挖掘。第一种方法是使用静态离散化,该方法使用apriori算法定位谓词集合。第二种是动态离散化,用于对数字属性进行动态分割。第三种是基于距离的离散化,用于测量数据点之间的距离。

Camera课程

Python教程

Java教程

Web教程

数据库教程

图形图像教程

办公软件教程

Linux教程

计算机教程

大数据教程

开发工具教程