本文提出了一种基于密度聚类的三支K-Means算法。针对传统的K-Means算法在选取初始聚类中心时往往依赖于随机选择和无法处理不确定性数据对象的问题,本文采用基于密度聚类算法优化初始聚类中心的选择,并优化了截断距离的选取,最后使用三支决策的方法对聚类结果进行处理。实验结果表明,与传统的K-Means算法相比,改进的K-Means算法在聚类中表现出更高的聚类精度和稳定性。This paper proposes a three-branch K-Means algorithm based on density clustering. In view of the problem that the traditional K-Means algorithm often relies on random selection and cannot handle uncertain data objects when selecting initial clustering centers, this paper uses a density-based clustering algorithm to optimize the selection of initial clustering centers, and optimizes the selection of truncation distance. Finally, a three-branch decision method is used to process the clustering results. The experimental results show that the improved K-Means algorithm exhibits higher clustering accuracy and stability in clustering compared to the traditional K-Means algorithm.
现有的索引选择方法存在诸多局限性.首先,大多数方法考虑场景较为单一,不能针对特定数据模态选择合适的索引结构,进而无法有效应对海量多模态数据;其次,现有方法未考虑索引选择时索引构建的代价,无法有效应对动态的工作负载.针对上述问题,提出一种面向多模态数据的智能高效索引选择模型APE-X DQN(Distributed prioritized experience replay in deep Q-network),称为AP-IS(APE-X DQN for index selection).AP-IS设计了新型索引集编码和SQL语句编码方法,该方法使AP-IS在感知多模态数据的同时兼顾索引结构本身的特性,极大地降低了索引的存储代价.APIS集成新型索引效益评估方法,在优化强化学习奖励机制的同时,监控数据库工作负载的执行状态,保证动态工作负载下AP-IS在时间和空间上的优化效果.在真实多模态数据集上进行大量实验,验证了AP-IS在工作负载的延迟、存储代价和训练效率等方面的性能,结果均明显优于最新索引选择方法.
暂无评论