数据挖掘 多维关联规则
关联规则挖掘帮助我们找出大数据集中的关联关系。
在多维关联中,
- 多维关联规则由多个方面组成
-
数值属性应进行离散化处理。
-
属性可以是未减轻或定量的。
-
定量特征是数值的,并具有等级顺序。
挖掘多维关联规则的三种方法是−
使用定性属性的静态离散化
离散化在挖掘之前进行,并且是静态的。离散化属性被视为绝对的,并使用称为Apriori算法的算法来搜索所有的k-频繁谓词集(需要k 或k+1个表扫描)。频繁谓词集的每个子集应连续。数据立方体最适合挖掘,因为它们有助于加快挖掘速度。谓词单元格与n维数据立方体的单元格相关联。
例子 − 在一个数据立方体中,3D立方体(id,name,class)是频繁的,那么它表明(id,name),(name,class),(id,class)也是频繁的。
使用定性属性的动态离散化
也称为挖掘定量关联规则,数值属性是动态离散化的。
例子
age(A,"12..25")Λrank(A,"1..4")Λgets(A,"laptop computer")
输出
item | rank1 | rank2 | rank3 | rank4 |
---|---|---|---|---|
age,22-25 | ||||
age,18-21 | ||||
age,12-17 |
在这里,属性被分为若干个区间,并基于数据分布进行分类。这些区间可以进一步合并进行分析,因此具有离散化的动态性。
元组的网格
基于聚类的距离离散化
这是一个考虑感兴趣数据之间距离的动态离散化过程。
挖掘过程包括两个步骤:
- 通过执行聚类找到所涉及属性的间隔。
-
通过搜索一起出现的聚类组来获取关联规则。
注意 −关联规则中的前提和结果部分的聚类强相关并一起出现。
结论
本文介绍了使用多维关联规则进行数据挖掘,帮助找到数据集之间的关系,然后通过不同的方法(离散化)来执行挖掘。第一种方法是使用静态离散化,该方法使用apriori算法定位谓词集合。第二种是动态离散化,用于对数字属性进行动态分割。第三种是基于距离的离散化,用于测量数据点之间的距离。