数据挖掘(Data Mining)是数据库技术与人工智能技术相的产物,也是近年来数据库领域研究的热点之一.在信息化高度发达的今天,数据挖掘帮助人们从浩如烟海的数据海洋中将最有价值的信息提取出来.数据挖掘的主要目标有相联规则的发现、聚类、概念描述、偏差检测等等.目前,数据挖掘的主要应用领域有金融、医疗保健、市场业、零售业、制造业、司法、工程与科学等部门.该文的工作是围绕着数据库中相联规则的挖掘而展开的.主要进行了两方面的工作,在第一部分中,该文提出了两种生成模拟的事务数据库(Transaction Databas)的算法CLIM(Candidate Large Itemsets Merge)和SLIM(Simulated Large Itemsets Merge).由于在进行相联规则的挖掘算法研究时,有时并没有现实的事务数据库可供使用,因此需要模拟地生成一些数据库,使其尽量与现实事务数据库近似,CLIM与SLIM算法就是为生成这样的数据库而设计的.该文的第二部分工作是围绕着两个相联规则挖掘算法的性能比较展开的.目前,各国的研究人员提出了许多不同的挖掘算法,该文选择了两种挖掘算法进行比较,一个是由IBM公司的***和***提出的Cumulate算法,另一个是由郑州大学计算机系提出的FETD算法.该文在对两种算法用C语言实现之后,针对不同的条件和参数,进行了详尽的比较和分析,找出了影响性能提高的各种原因.
暂无评论