随着Web技术的不断发展和Linked Open Data等项目的相继开展,关联图谱已被广泛应用于互联网智能搜索、图书馆书目管理、医学、智能制造等领域,并取得了显著的成果。文中深刻阐述了关联图谱的定义、架构以及构建的关键技术,包括实体抽取...
详细信息
随着Web技术的不断发展和Linked Open Data等项目的相继开展,关联图谱已被广泛应用于互联网智能搜索、图书馆书目管理、医学、智能制造等领域,并取得了显著的成果。文中深刻阐述了关联图谱的定义、架构以及构建的关键技术,包括实体抽取、实体间关系抽取和知识融合等方面的研究进展,并深度分析了当前关联图谱分析与研究所面临的若干挑战问题。
具有噪声的基于密度的空间聚类(Density‑based spatial clustering of applications with noise,DBSCAN)能够发现不同密度和大小的类簇,对噪声也有很好的鲁棒性,被广泛地应用到数据挖掘的任务中。DBSCAN通常需要调整参数MinPts和Eps以...
详细信息
具有噪声的基于密度的空间聚类(Density‑based spatial clustering of applications with noise,DBSCAN)能够发现不同密度和大小的类簇,对噪声也有很好的鲁棒性,被广泛地应用到数据挖掘的任务中。DBSCAN通常需要调整参数MinPts和Eps以达到更优的聚类效果,但往往在搜索最优参数的过程中会影响DBSCAN的性能。本文从两个方面优化DBSCAN,一方面,提出一种无参的方法优化DBSCAN全局参数选择。无参方法利用自然最近邻获得数据集的自然特征值,并将自然特征值作为参数MinPts值。然后,根据自然特征值计算自然特征集合,利用自然特征集合中的数据分布特性,分别采取统计最小值、平均值和最大值3种方式得到Eps值。另一方面,采用集成数据科学实时加速平台(Real‑time acceleration platform for integrated data science,RAPIDS)的图形处理器(Graphics processing unit,GPU)计算加快DBSCAN算法的收敛速度。实验结果表明,本文提出的方法在优化DBSCAN参数选择的同时,取得了与密度峰值聚类(Density peaks clustering,DPC)相当的聚类结果。
暂无评论