检索结果-内蒙古大学图书馆

清华大学学报（自然科学版） 2014年第12期54卷 1529-1533页

作者：李鹏刘洋孙茂松清华大学计算机科学与技术系智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)北京100084

调序歧义是层次短语翻译模型面临的主要挑战之一,但在该类模型中使用的上下文信息非常有限,制约了该类模型处理调序歧义的能力。为了更充分地利用上下文信息,提出了一种面向层次短语翻译模型的神经网络调序模型。该模型将调序看作分类问... 详细信息

调序歧义是层次短语翻译模型面临的主要挑战之一,但在该类模型中使用的上下文信息非常有限,制约了该类模型处理调序歧义的能力。为了更充分地利用上下文信息,提出了一种面向层次短语翻译模型的神经网络调序模型。该模型将调序看作分类问题,首先使用递归自动编码器为任意长度的字符串计算向量表示,然后使用这些向量表示作为分类特征,用于预测不同调序方式的概率,最后将这些概率作为新的特征加入翻译模型中进行翻译。实验结果显示：在中—英翻译任务上,该模型相比基线系统获得了0.3~0.8的BLEU值提升,具有更好的调序能力。

关键词：计算机科学与技术神经网络调序模型递归自动编码器层次短语翻译模型

来源：评论

学校读者我要写书评

暂无评论

基于深度学习的代码克隆检测方法研究

基于深度学习的代码克隆检测方法研究

引用

作者：陆祉丞北京邮电大学

学位级别：硕士

随着计算机技术的不断发展,软件的规模也在逐渐扩大。但由于在代码开发过程中的各种原因比如主观抄袭,使用复用技术等,导致产生了代码克隆现象。代码克隆虽然能帮助软件系统的开发,但在复杂的软件系统如大型国防软件系统、商用软件系统... 详细信息

随着计算机技术的不断发展,软件的规模也在逐渐扩大。但由于在代码开发过程中的各种原因比如主观抄袭,使用复用技术等,导致产生了代码克隆现象。代码克隆虽然能帮助软件系统的开发,但在复杂的软件系统如大型国防软件系统、商用软件系统等会带来漏洞或者后门等危险以及知识产权的纠纷等问题。传统的代码克隆检测主要采用人工特征提取并进行比较,检测效果较差。基于深度机器学习的方法能够挖掘出更深层的语法语义信息,可以有效提升检测精度,因此相关的研究成为热点。本文在分析总结现有国内外基于深度学习的代码克隆检测技术的基础上,针对使用的不同中间表示形式和是否有标签数据提出了三个主要的研究内容并在每个研究内容之上提出了本论文的改进方法。(1)基于AST树表示形式的深度有监督代码克隆检测研究。本论文提出了一种结合树形卷积网络和自注意力双向门控循环单元的神经网络 TBCGSA(Tree Based CNN with BiGRU and Self-Attention)。通过实验,在本论文使用的数据集上,检测准确率取得了比现有模型更好的效果。(2)基于图神经网络的深度有监督代码克隆检测研究。本论文提出了一种将源代码的AST抽象语法树进行加边操作的方法,并使用了两种常见的图神经网络进行代码特性向量的提取。通过实验,在本论文使用的数据集上,在检测效率上取得了比较好的效果。(3)基于AST树表示的深度无监督代码克隆检测研究。本论文提出了一种基于多叉树输入的改进递归自动编码器网络,MTBRAE(Multi Tree Based Rucursive Autoencoders)。通过实验,在本论文使用的数据集上,在高语法克隆和语义克隆方面,取得比现有的其他传统和无监督代码克隆检测方法更好的效果。

关键词：代码克隆检测抽象语法树树形卷积网络自注意力机制图神经网络递归自动编码器

来源：评论

学校读者我要写书评

暂无评论

海量开源代码高效克隆检测方法设计与实现

海量开源代码高效克隆检测方法设计与实现

引用

作者：冯晨辉国防科技大学

学位级别：硕士

随着开源社区的发展,开源活动的增长,程序员越来越能接受开源行为。在开发过程中代码克隆成为了提高软件开发效率的捷径。代码克隆有助于软件系统进行开发的同时,但也会对软件代码的维护产生许多有害的影响。有不少的研究和相关工作表明... 详细信息

随着开源社区的发展,开源活动的增长,程序员越来越能接受开源行为。在开发过程中代码克隆成为了提高软件开发效率的捷径。代码克隆有助于软件系统进行开发的同时,但也会对软件代码的维护产生许多有害的影响。有不少的研究和相关工作表明,软件系统中存在着大量的相似或者相同的代码。人们提出了许多检测克隆的方法,最先进的工具在一些具有高代码相似性的场景中表现良好。然而,程序员经常需要修改代码以适应他们的代码上下文环境（例如,删除/添加一些新行）,这样的操作使得代码之间的相似性大大下降,使得它们很难被检测到。也有文章的实验数据表明大多数克隆检测工具在检测低相似度的代码片段时都失败了。（1）提出并实现了一个低相似度代码的克隆检测技术我们提出了一个孪生神经网络,它将两个递归自动编码器（RAE）与一个用于克隆检测的比较器网络连接起来。设计了无加权递归自编码器来学习代码表示,然后利用比较器网络进行相似度评估。该网络充分利用了词汇、语义和结构信息,在低相似度代码克隆检测上取得了较高的准确性。我们分别使用标记克隆和整个库在Big Clone Bench上进行了全面的实验。结果表明,我们的方法和最新的检测技术相比具有更高的召回率,在WT3/T4中召回率达到93.02%,优于目前的水平。（2）提出并实现了一个大规模代码快速检测技术我们提出了NiCad+运用于海量代码的快速检测。通过分析了Ni Cad中的原始匹配检测过程,我们设计了快速检测过程于Ni Cad+。我们比较了Ni Cad+和原来的Ni Cad的检测结果,Ni Cad+在召回率上并没有降低。又测试了不同输入代码规模大小的耗时,实验表明Ni Cad+能够极大的降低检测耗时。（3）设计并实现了一个海量开源代码的克隆检测平台我们设计并实现了构建海量开源代码数据库的方法,并制定了代码版本库同步更新的规则。为了能够降低代码存储的压力,我们对代码进行归一化的处理后,只需要保存代码的中间表示,同时也是为了方便进行克隆检测。我们集成了代码克隆检测技术Sia-RAE和Ni Cad+,并设计了可视化代码克隆检测结果的展示。

关键词：代码克隆检测孪生神经网络递归自动编码器开源软件海量开源代码

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：