RNA二级结构的打分函数在RNA二级结构预测中扮演着越来越重要的角色。目前对RNA二级结构的打分函数并没有很好地抓住RNA的折叠机制。我们认为递归神经网络层与层之间的信息传递方式和RNA的折叠方式有相似之处。提出使用双向LSTM(Long Short term Memory)神经网络对RNA二级结构进行打分。在数据集ASE(长度小于500),以及CRW(大部分长度大于1 000)上,进行了三项实验。通过拟合SEN(Sensitivity)与PPV(Specificity)打分函数确定了在目标函数为mean_squared_error时拟合效果最好;进而对比较复杂的打分函数MCC(Matthews correlation coefficient)进行拟合;最后实验得出双层双向LSTM模型的结果优于单层双向LSTM模型的结果。通过实验,得到的打分函数包含了碱基序列的全局属性。实验结果表明LSTM深度神经网络模型可以很好地拟合RNA二级结构的打分函数。
提出一种基于马氏距离的分段矢量量化时间序列分类(Mahalanobis distance-based time series classification using PVQA,M PVQA)算法。该算法在继承传统算法时间复杂度的基础上,引入马氏距离,克服了欧氏距离容易受模式特征量纲影响的缺...
详细信息
提出一种基于马氏距离的分段矢量量化时间序列分类(Mahalanobis distance-based time series classification using PVQA,M PVQA)算法。该算法在继承传统算法时间复杂度的基础上,引入马氏距离,克服了欧氏距离容易受模式特征量纲影响的缺点,提高了算法精度。首先,在训练时采用分段矢量量化近似方法获得码本,然后以马氏距离为相似性度量对时间序列进行分段重构。对重构后的时间序列,同样基于马氏距离为相似性度量进行判别。在4个时间序列数据集上进行的试验结果验证了所提方法在时间序列表示和分类上的优越性。
蛋白质结构预测中,采样是指在构象空间中生成具有最小自由能的状态。传统的采样方法是对自由度直接赋值。这种方法在处理较少的残基时能取得好的效果。但是对于包含100个残基以上的蛋白质结构,由于构象空间的急剧增长,难以得到理想的结构。本文引入深度学习中的HMC(Hybrid Monte Carlo)采样方法,以概率分布为依据对蛋白质的自由度进行采样,能够对包含100、200甚至更多个残基的蛋白质结构进行采样。并且,在采样的过程中加入残基间的距离约束,使得一个结构中,相对于Rosetta的ab initio最多有75%(平均40%)的残基对得到优化,满足距离约束。
暂无评论