版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
专利申请号:CN202110162209.8
公 开 号:CN112905232B
代 理 人:姜丽楼
代理机构:北京工信联合知识产权代理有限公司
专利类型:发明专利
申 请 日:20231128
公 开 日:20210205
专利主分类号:G06F8/75
关 键 词:语法分析树 语法分析 首尾位置 源码文件 子树 匹配成功 字符流 语料 平行 编程语言 程序代码 代码提取 节点匹配 节点信息 同一项目 根节点 挖掘
摘 要:本发明公开了一种基于语法分析树的程序代码平行语料挖掘方法及系统,包括:获取同一项目对应的基于两种不同类型的编程语言编写的第一源码文件和第二源码文件,并进行语法分析,以获取第一语法分析树和第二语法分析树;根据节点信息从所述第一语法分析树和第二语法分析树的根节点开始依次向下进行节点匹配,以确定至少一组匹配成功的属于第一语法分析树的第一语法分析子树和属于第二语法分析树的第二语法分析子树;确定每组匹配成功的第一语法分析子树在所述第一源码文件的字符流中的第一首尾位置和第二语法分析子树在所述第二源码文件的字符流中的第二首尾位置,并根据每组的第一首尾位置和第二首尾位置进行代码提取,以获取多组平行语料。