数据挖掘是从大量的数据集中提取隐含的、事先未知的、并且潜在有用的知识过程。随着Internet迅速发展,互联网上的数据越来越庞大。将数据挖掘的思想和方法应用到web上,解决web中遇到的一些问题,从而形成了web数据挖掘这样一个新的研究方向。
web数据挖掘有很多研究热点,其中关联规则挖掘是web数据挖掘领域研究的一个重要方面。本文首先对数据挖掘、web数据挖掘和web数据预处理等相关知识进行了阐述;然后研究了关联规则基本理论及关联规则经典算法;最后为了解决现实数据库中每个项目的分配不均匀性和重要性差异,重点研究了加权关联规则挖掘算法。
深入分析了著名的加权关联规则挖掘算法——New-Apriori算法,发现了该算法中存在的问题。其一,New-Apriori算法进行项集连接有不合理之处;其二,需要重复扫描数据库来计算候选项集的支持计数,从而严重影响了算法的运行效率;其三,New-Apriofi算法没有对候选项集进行剪枝,这样会保留许多无用的候选项集。针对上述三方面问题,本文给出了一种改进的算法——WARDM(Weighted Association Rules Data Mining)算法。该算法对候选1-项集、候选2-项集及候选k-项集(k>2)地生成分别讨论,避免漏掉加权频繁项集;利用事务标识号集合来计算候选项集的支持计数,这样只需扫描一遍事务数据库,减少了数据库的扫描次数;根据加权关联规则的性质,在计算候选项目集时进行两次减枝,减少了候选项目集的数量。实验结果表明,新算法在时间上地消耗明显少于New-Apriori算法,有效提高了算法的效率;同时,新算法能有效减小候选顶集的规模。
暂无评论