| | 《计算机学报》文章摘要 全文下载 |
| 文章题目 | 基于多维数据集的异常子群发现技术 |
| 作者 | 张静恬1) 伍 赛2) 陈 刚2) 寿黎但3) 陈 珂2) |
| 作者单位 | 1)(浙江大学计算机科学与技术学院 杭州 310027)
2)(浙江省大数据智能计算重点实验室 杭州 310027)
3)(浙江大学计算机辅助设计与图形学国家重点实验室 杭州 310027)
|
| 发表年份 | 2019 |
| 发表月份 | 8期(1671-1685) |
| 文章摘要 | 摘 要 非频繁项集是未被标准化的频繁项集产生算法(如APRIORI以及FP-Growth算法)提取的所有项集.在数据集上挖掘有意义的非频繁项集是数据挖掘的重要工作之一.目前,基于传统数据集的非频繁项集挖掘研究主要集中在负相关、负模式以及间接关联等方面,且主要是对整个数据集上的性质进行分析,而没有对数据集的切片进行分析.该文提出了一种新的模式,试图找到符合如下条件的特定子群,其描述的数据集切片上存在某些特殊项集,这些项集在整个数据集上并非频繁项集,但是在该数据集切片上却是频繁项集.根据用户要求自动找出这些异常子群以及其对应项集的算法在数据分析中有着十分重要的意义.该文提出的解决方案由两部分组成:候选产生阶段以及查询交互阶段.前者是一个脱机处理的过程,而后者则是在线实时反馈的过程.在候选产生阶段,该文提出了一种基于多维数据集高效产生频繁项集以及显著子群并有效建立索引的算法.根据索引,在查询交互阶段,该文提出的算法框架可以快速准确地返回给定查询对应的异常子群以及对应项集.基于多个真实数据集的实验表明,该文提出的方案可以根据用户要求实时返回有意义的异常子群以及对应项集.此外,该文提出的算法在多维数据集上的挖掘效率比UTMTU算法提升了数倍.
关键词 频繁项集挖掘;子群发现;多维数据集;数据挖掘;异常检测
中图法分类号 TP391 DOI号 10.11897/SP.J.1016.2019.01671
|