DBSCAN(density-based spatial clustering of applications with noise)是应用最广的密度聚类算法之一.然而,它时间复杂度过高(O(n^(2))),无法处理大规模数据.因而,对它进行加速成为一个研究热点,众多富有成效的工作不断涌现.从加速目...
详细信息
DBSCAN(density-based spatial clustering of applications with noise)是应用最广的密度聚类算法之一.然而,它时间复杂度过高(O(n^(2))),无法处理大规模数据.因而,对它进行加速成为一个研究热点,众多富有成效的工作不断涌现.从加速目标上看,这些工作大体上可分为减少冗余计算和并行化两大类;就具体加速手段而言,可分为6个主要类别:基于分布式、基于采样化、基于近似模糊、基于快速近邻、基于空间划分以及基于GPU加速技术.根据该分类,对现有工作进行了深入梳理与交叉比较,发现采用多重技术的融合加速算法优于单一加速技术;近似模糊化、并行化与分布式是当前最有效的手段;高维数据仍然难以应对.此外,对快速化DBSCAN算法在多个领域中的应用进行了跟踪报告.最后,对本领域未来的方向进行了展望.
蛋白质模型质量评估是指对计算手段预测出的蛋白质结构进行评分,以选择尽可能接近天然结构的蛋白质模型,这对在蛋白质结构预测中挑选最优的蛋白质模型和在生物医学研究中恰当使用它们起到至关重要的作用.随着3D蛋白质数据的不断增长,基于深度学习的蛋白质模型质量评估方法得到了快速发展,但该领域只探索了深度学习方向较浅层的应用.本文为了探索更精确的质量评估方法,提出了一个基于多尺度卷积(MCNN)和双向门控循环神经网络(BiGRU)的深度模型,预测蛋白质模型的GDT_TS(Global Distance Test_Total Score)分数,并将这一方法命名为BMBQA(Quality Assessment Base on MCNN-BiGRU).其中,多尺度卷积神经网络用来提取蛋白质模型中浅层的细节信息以及深层的抽象信息,双向门控循环神经网络用来提取每个残基的长程相互作用信息,通过数据增强来提高深度模型在目标蛋白质中挑选最优蛋白质模型的性能.本文利用CASP13中的数据集与现有的先进方法进行比较,实验结果表明本文方法在4个经典的评价指标中均具有很强的竞争力.
事件同指消解是一个具有挑战性的自然语言处理任务,它在事件抽取、问答系统和阅读理解等任务中发挥着重要作用。现存的事件同指消解语料库的一个问题是标注规模较小,无法训练出高效能的模型。为了解决上述问题,该文提出了一个基于跨语言数据增强的事件同指消解神经网络模型ECR_CDA(Event Coreference Resolution on Cross-lingual Data Augmentation)。该模型通过中英文语料互译来增强语料,并通过共享模型参数的方式实现中英文模型的跨语言学习,从而提高了事件同指消解的性能。在ACE 2005英文语料上的实验结果表明,ECR_CDA优于目前最先进的基准系统。
暂无评论