模式挖掘是数据挖掘问题的重要领域,高效用项集挖掘(High Utility Itemset Mining,HUIM)则是模式挖掘的热门研究方向。精确算法最先应用在HUIM中以挖掘全部的高效用项集(High Utility Itemsets,HUIs)。精确算法在数据集规模增大时因枚举大量项集导致计算量大幅增加,基于演化算法(Evolutionary Algorithms,EAs)的HUIM方法可以在高效用项集挖掘中解决这一性能瓶颈。然而演化算法在迭代中需要多次重复遍历高效用数据集,导致耗时严重。近年来,图形处理器(Graphic Processing Unit,GPU)在并行计算中广泛应用,大幅提升了算法运行速度。GPU相对CPU更适合处理大规模并行任务,因此本文将GPU与演化算法结合以挖掘高效用项集挖掘问题。本文针对不同的数据规模,设计基于GPU平台的并行演化、启发式策略以在更短时间内完成高质量的高效用项集的挖掘,主要工作如下:1)在小规模数据集中,现有演化算法在挖掘HUIs时的运行性能优于经典精确算法。然而,演化算法每次迭代时需要多次遍历数据集,这导致运行性能下降,且运行速度不及CPU并行的精确算法。为了提高演化算法运行速度同时保持良好的挖掘质量,本文提出了基于GPU平台的并行遗传算法解决HUIM问题(Parallel high utility itemset mining with genetic algorithm based on GPU platform,PHUI-GA)。在PHUI-GA中,遗传算法的选择、交叉、变异和适应度评估步骤在GPU中并行执行以大幅提升运行性能。提出的改进初始化策略、基于排序的高概率编码向量策略和带有种群多样性改进的精英策略可以提升遗传算法在高效用项集挖掘中的收敛性能。实验结果表明,在现有演化算法文献中相同规模的数据集中,PHUI-GA在相同迭代次数内耗时更短。对比并行前的算法,种群中所有个体适应度评估的总运行时间最高可有250倍加速效果,对比其他演化算法最高有25倍加速。在挖掘90%高效用项集时,PHUI-GA对比现有演化算法运行速度最高有381倍提升,对比现有CPU并行精确算法有最高47倍速度提升。得益于迭代改进策略,算法在半数以上数据集中保持了最高的挖掘质量。2)现有演化算法已经可以在小规模数据集中保持高挖掘质量。然而这些评估的数据集规模有限,通常项(item)数量仅为几十到几百、交易(transaction)数量为几千至几百万、交易密度最高为50%。随着数据规模不断增加,在项数量为几千到几万、交易数量最多达到百万、交易密度小于0.5%的大型稀疏数据集中,现有演化算法运行速度显著下降。同时,由于缺少针对大型数据集的挖掘策略,导致现有演化策略的挖掘性能较差。现阶段运行速度最快的精确算法已经在大型稀疏数据集上表现出良好的性能,然而随着最小阈值(minimum threshold)降低,精确算法运行性能急剧下降。因此本文提出了针对大型数据集的GPU并行启发式算法(CUDA paralleled heuristic algorithm for mining high utility itemsets,PHA-HUIM)来进一步提升GPU并行运行性能。PHA-HUIM借鉴演化算法的结构,将迭代过程简化并设计为搜索、适应度计算、种群交流三个步骤,三个步骤均在GPU中执行以避免频繁的CPU/GPU交互。同时PHA-HUIM去重了对并行冗余的演化结构和在大型稀疏数据集下失效的策略。在搜索策略中使用三个搜索空间来提升种群丰富度,同时不均衡策略用来在搜索空间的局部区域更快的发现高效用项集组合。在适应度评估步骤引入负载均衡策略以进一步提升GPU并行性能,环形拓扑交流结构在常数运行时间内将优秀个体传递给下次迭代中。实验结果表明,在大型稀疏数据集中,PHA-HUIM的挖掘质量显著优于现有演化算法。当挖掘至少50%高效用项集时,PHA-HUIM的运行速度优于对比的演化算法、精确算法和CPU并行精确算法。当挖掘超大型数据集时,PHA-HUIM的运行速度优势更加显著。
暂无评论