在大数据时代,物联网、移动互联网、各种智能终端的广泛应用产生了海量的数据,这些数据大都以流的形式存在。与静态数据不同,流式数据一般在线实时到达,数据量大,历史数据不可重复访问,要求在处理分析时一次性顺序完成。流式大数据的处理分析问题是大数据、人工智能相关应用的基础,是学术界和工业界关注的重要问题。流式数据的序列模式挖掘是大数据、数据挖掘的一个重要研究内容,在金融交易、交通监测、网络舆情分析等场景中具有较高的应用价值。本文聚焦了流数据中的序列高效用模式挖掘,虽然已有相关工作对此进行了研究,但仍存在分析处理时数据结构复杂,内存占用较多,算法运行效率较低,扩展性较难等问题。为了解决流数据上序列高效用模式的挖掘存在的问题,本文具体工作如下:首先,为了解决流数据中序列效用模式挖掘的效率问题,在单个计算节点上提出了基于滑动窗口的高效用序列模式挖掘算法HUSPMDS(High Utility Sequential Pattern Mining Algorithm over Data Streams)。该算法以效用树(High Utility Tree,HU-Tree)为基础数据结构,将滑动窗内的数据建模在效用树上,通过遍历效用树计算序列中的高效用模式。HUSPMDS算法通过一次遍历树结构发现序列中的高效用模式,避免了候选序列模式的生成步骤;随着滑动窗口的推移,将过时的数据和新到达数据同步更新到效用树中,减少了效用树的访问次数,提高了算法的处理效率。在多个数据集上与相关工作进行对比分析,结果表明HUSPMDS算法在不同阈值、不同滑动窗口大小、不同数据量等情况下都有较好的效果,验证了所提出算法的有效性和运行效率。其次,针对前述工作在单个计算节点上运算能力有限,不易水平扩展的问题,提出了分布式环境下的流序列高效用模式挖掘算法DHUSPMDS(Distributed High Utility Sequential Pattern Mining Algorithm over Data Streams)。DHUSPMDS算法基于Map Reduce框架,设计了数据预处理和流数据挖掘两阶段处理方案。在流数据挖掘阶段又分为候选集生成和最终结果计算两个步骤。在实验阶段,通过在不同大小规模数据集、不同阈值、不同滑动窗口大小、不同计算节点数目等情况下与相关工作的对比分析,显示了本文算法的有效性和在效率、可扩展性方面的优势。
暂无评论