随着互联网技术的日益发展,种类繁多的终端设备时时刻刻都在收集数据亦或是展示数据。如何在数据量极大的大数据时代利用这些数据进行预处理进而发现有价值、有趣的关系是长期以来数据挖掘领域的热点研究内容。空气质量一直以来都是国家高度重视的话题,空气质量相关指标的检测可以清晰地反应一个地区的大气环境状况,具有相似变化的空气质量指标的时间序列数据反应了区域间空气质量的相似性,因此,研究具有相似空气质量条件下的区域空气质量影响因素间的关联关系对改善区域空气质量、协助环保部门制定针对性解决方针具有重要意义。
利用聚类技术在研究空气质量的区域性特征时,由于时间序列数据具有时间维度大,序列长短不一,噪声影响等因素,传统的聚类技术已无法有效地对其进行聚类分析;此外,空气质量的优良状况并不是由某单一影响因素所决定的,而是由多种影响因素的工同作用决定的。在应用关联规则技术对空气质量影响因素进行挖掘研究时发现,关联规则相关技术会人为设置最小支持度阈值,将一些低于该阈值的项直接筛选掉,忽略了低频次项的重要性,导致后续规则中仅发现高于阈值的项集之间的规则,缩小了规则的挖掘范围,降低了挖掘规则的价值性和实用性。针对上述研究目的及存在的相关问题,本文开展了以下工作:
(1)提出了基于生成式对抗网络的时间序列聚类算法(Time Series Clustering based on GAN,TSC-GAN)。该算法模型首先通过生成式对抗网络对不同站点所监测到的空气质量指数时间序列数据进行对抗学习,当模型训练完毕时将判别器部分进行重新利用,再次对数据集时间序列数据进行特征学习,将学习到的特征映射到特定空间内,再应用K-Means聚类算法进行聚类,在5个UCR时间序列数据集上的实验结果表明该模型在标准互信息性能指标上优于传统的基于距离的时间序列聚类技术。
(2)提出了基于多信息编码策略的动态遗传算法关联规则挖掘算法(Dynamic Genetic Algorithm Association Rule Mining Algorithm Based on Multiinformation Coding Strategy,DGAARM)用于挖掘区域内空气质量影响因素的关联关系。该算法是将关联规则中反应规则兴趣度指标中的支持度、置信度以及提升度进行加权来综合评价规则的兴趣度,使其免受人为设置的最小支持度阈值的干扰。使用动态交叉率及变异率的遗传算法来提高最优规则的挖掘效率,在算法迭代开始前,采用单位点携带多信息的编码策略来优化空间存储,进而减少算法执行时间。与传统关联规则算法以及将优化算法与关联规则算法相结合的方法相比较,本文提出的多信息编码策略的动态遗传算法在算法执行时间、最优规则的收敛性等方面具有较好的性能。
暂无评论