超过6000种人类疾病是由非同义单核苷酸变异(Non-synonymous single nucleotide variations,nsSNVs)引发的,快速准确地预测nsSNVs的致病性,有助于理解发病原理和设计新药物,也是生物信息领域的重要研究课题之一。该文给出了nsSNVs致病...
详细信息
超过6000种人类疾病是由非同义单核苷酸变异(Non-synonymous single nucleotide variations,nsSNVs)引发的,快速准确地预测nsSNVs的致病性,有助于理解发病原理和设计新药物,也是生物信息领域的重要研究课题之一。该文给出了nsSNVs致病性研究的重要意义与背景知识;总结了国内外研究的主流方法,包括基于突变频率的方法、基于通路的方法、结合基因组和转录信息的方法、基于序列进化保守性的方法、基于序列和结构混合特征的方法以及综合评价类方法,对代表性方法进行了阐述;给出了nsSNVs致病性研究中常用的数据库、特征表示方法以及性能评价指标,多角度地对12种nsSNVs致病性预测方法进行了比较;最后,展望了nsSNVs致病性预测中可能取得突破的若干研究方向。
关键词提取在众多文本挖掘任务中扮演着重要的角色,其提取效果直接影响了文本挖掘任务的质量。以文本为研究对象,提出了一种基于k-truss图分解的关键词提取方法,名为KEK(keyword extraction based on k-truss)。该方法首先借助空间向量...
详细信息
关键词提取在众多文本挖掘任务中扮演着重要的角色,其提取效果直接影响了文本挖掘任务的质量。以文本为研究对象,提出了一种基于k-truss图分解的关键词提取方法,名为KEK(keyword extraction based on k-truss)。该方法首先借助空间向量模型理论,以文本中的词为节点,通过词语之间的共现关系来构建文本图,接着利用k-truss图分解技术来获取文本语义特征,并结合词频、单词位置特征、复杂网络特征等构造无参评分函数,最终根据评分结果来提取关键词。通过在基准数据集上进行实验验证,结果表明KEK算法在提取短文本关键词上的F_(1)值性能指标优于其他基于文本图的关键词提取方法。
为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法。提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,...
详细信息
为了解决文本分类任务中未标注数据无法即时标注及成本过高的问题,提出一种面向文本分类的不确定性主动学习方法。提出MSDL(Measure sample density by LDA)算法对未标注样本密集度进行计算,引入新的度量样本聚集情况的密集度计算方式,在密集度高的样本区域选取初始训练集样本,从而使初始训练集更具代表性;从未标注样本中选取更具不确定性的样本加入到训练集中,并基于信息熵对样本进行加权训练,迭代更新分类器模型,直至达到预期终止条件。实验结果表明,在文本分类任务中,该方法相较于其他传统主动学习算法性能更优。
暂无评论