版权所有:内蒙古大学图书馆 技术提供:维普资讯• 智图
内蒙古自治区呼和浩特市赛罕区大学西街235号 邮编: 010021
项目年度编号:1700580038
完成单位:江西财经大学
省 市:江西
公布年份:2017年
成果类别:基础理论
关 键 词:半结构化数据管理 非结构化数据管理 XML数据库 XML信息检索 Web数据管理
摘 要:在当今互联网和大数据时代,人们迫切地需要对XML等半结构化数据和文本等非结构化数据进行有效地存储、查询和检索,并从海量数据中快速、准确地提取有效的知识。为此,江西省高校数据与知识工程重点实验室以数据库、信息检索、数据挖掘、机器学习、自然语言处理等相关领域的理论和方法为手段,针对半结构化和非结构化数据管理中具有基础性、前瞻性的若干关键科学问题展开了深入研究。 主持的国家自然科学基金项目:基于用户反馈的Web数据集成中的数据质量管理(面上项目,61173146,201201~201512);面向查询的XML文本自动文摘研究(青年项目,60803105,200901~201112);基于隐式反馈和伪反馈的XML文本文档检索技术研究(地区项目,60763001,200801~201012)。 取得了一系列实破性和创新性的研究成果,具体表现如下: ① 提出了一种XML数据的索引结构,以及对应的关系存储模式X-RESTORE,它能有效地支持结构连接的计算,全面支持XML查询和关键字搜索,实验证明,具有很好的查询性能;解决了兄弟关系结构连接的有效计算问题,提出了兄弟关系计算的优化思想,以及有效地实现兄弟关系结构连接的Pre-Fol-Sib-Join算法和Fol-Pre-Sib-Join算法。 ② 提出了基于相关反馈的XML内容查询扩展的新方法,实验结果表明该扩展方法可以大幅度提高检索的准确率;在伪反馈的基础上,利用聚类和词组抽取对XML文档进行“内容+结构的扩展,从而最终形成反映用户查询意图的扩展查询表达式,实验结果表明该扩展方法有效地降低了传统伪反馈中固有的查询主题漂移现象,并显著地提高了查准率。 ③ 提出了一种有效的XML模糊内容与结构检索方法;提出了一种XML模糊内容与结构检索计分方法,将内容相关性与结构相关性结合,根据内容和结构的匹配情况来计分,能够产生更准确的相关性得分;实验结果验证了所提出方法的有效性。 ④ 对于XML数据的关键词查询,不同关键词有着不同的角色,不同关键词之间具有不同的联系。提出了一种新的描述半结构化查询的模型,称为带结构的关键词查询模型;提出了处理带结构的关键词查询的有效算法,该算法分别获取一个关键词查询中对内容的约束特征和对结构的约束特征,且对结构的约束特征中蕴含了用户的查询意图;实验结果验证了所提出的处理方法的有效性。 ⑤ 基于答案结点与关键词查询的匹配模式,提出了一个新的聚类方法;接着提出了实现该聚类方法的两种算法:Lazy方法和Eager方法,并证明了Eager方法能够保证产生与Lazy方法相同的聚类结果,且Eager算法可以保证聚类的高效率和可伸缩性;大量的实验结果已证明,面向XML检索结果的聚类方法是有效的,能够产生有意义的聚类结果。 ⑥ 结点的语义可以用结点的标签或结点的路径来描述,为此提出了一种基于主题概括强度的结点语义权重模型(ATG模型)。提出了基于ATG模型的XML片段抽取策略,该策略首先计算XML结点的权重,并根据结点权重来调整结点中词的权重;然后根据查询进行XML结点检索,并依据几个观察规则从相关且重要的结点中抽取有利于查询者判断XML文档内容的片段。大量的实验结果已证明,基于ATG模型的XML片段抽取策略可以大幅度地提高XML信息检索的效率和准确率,获国际INEX 2011 Snippet Retrieval Track(片段检索)评测比赛第一名。 ⑦ 为了对深网数据库进行查询,网站往往提供一个简单的基于表单的界面,供用户指定一些约束和排序条件,称为带约束的排序查询。针对带约束的排序查询问题,提出了一种新的查询处理框架:为了处理对象的空间位置,构建一棵R树;同时,为了支持空间位置、数值属性和文本描述上的查询,对R树进行增强,使得在R树中遍历的同时,可以同时评估空间位置、数值属性,以及文本描述上的约束和排序条件;采取经典的Best-first算法来指导查询的执行。 ⑧ 提出了一种基于主题语义的层次化的结构化深网检索型属性的摘要构建方法;依据数据源匹配查询中检索关键词的程度得分以及数据源满足查询中约束关键词约束条件的程度得分,提出了一种面向混合类型关键词集成查询的结构化数据源摘要方法;提出了一种面向混合类型关键词查询的数据源选择策略;通过大量的实验,验证了以上方法的有效性。 ⑨ 分析了24种依存关系对句子情感计算的影响,找出了可能影响句子情感倾向性的8种依存关系;分别针对五种情况设计了6种情感计算规则;提出了基于二叉树的情感计算策略,定义了构建情感计算二叉树的4条原则,设计了情感计算二叉树的构建算法和基于情感计算二叉树的情感计算算法,有效地实现了句子中各语义片断的逐层情感计算。