随着互联网和信息技术的快速发展,信息呈现爆炸式增长趋势。数据库作为组织、存储和管理结构化数据的主要方式,在商业智能、企业资源管理乃至个人日常生产生活等领域得到了广泛应用。有关数据库的查询访问需求也与日俱增。传统的结构化查询方式(例如SQL语句)需要用户掌握专业的查询语言并且熟悉数据库复杂的底层模式,给数据库的查询访问工作带来了诸多困难与不便。在此研究及应用背景下,面向关系数据库的关键字查询技术应运而生,并引起数据库社区及研究人员的广泛关注。应用该技术,用户仅需提交若干关键字即可完成查询工作,大大降低了数据库的使用门槛,具有良好的应用前景。近年来,在关系数据库关键字查询方面涌现出大量研究成果。但是,由于关系数据库具有不同于Web和传统IR系统的结构特点,该领域的研究仍面临许多困难和挑战。例如,查询预处理机制的缺失,无法有效填补非结构化查询与结构化数据间的信息鸿沟;查询算法中频繁的多表连接操作,使得查询效率无法得到良好保障;缺少一种高效的排序机制,实现查询结果的自动化排序过程。因此,针对现有研究存在的不足,本着对已有方法进行改进、完善和发展的目的,本文从模式抽象、查询扩展、查询优化、结果排序等研究视角出发,解决了关键字查询相关方法及应用系统中存在的具体问题。总体而言,本文的研究主要包括以下4个方面:首先,针对现有模式抽象方法考虑因素单一、抽象结果准确率偏低的问题,对关系数据库模式抽象方法进行研究。提出了一种基于图划分策略的模式抽象方法GP-RDSS(Relational Database Schema Summarization based on Graph Partition),帮助用户在大型数据库中快速且准确地掌握相关信息。具体而言,(1)从结构紧密性、内容相似性两方面出发构建表间相似性矩阵,并通过挖掘查询日志信息对矩阵进行修正,使其度量综合全面、更具合理性;(2)提出固有重要性和依赖重要性的概念,形式化定义表重要性度量方案,能够对表重要性进行准确度量;(3)提出模式抽象算法,该算法将图划分策略和数据库自身特点巧妙结合,同时考虑用户查询偏好对模式抽象过程的影响,使模式抽象结果得到进一步提升;(4)在数据集TPC-E上进行实验,通过与现有模式抽象方法的对比,验证了本文方法的有效性和可行性。其次,针对关键字查询方式中存在的语义模糊及表达能力受限等问题,对关系数据库关键字查询扩展方法进行研究。提出了一种基于查询推荐及解释的查询扩展方法ReInterpretQE(Query Expansion Based on Recommendation and Interpretation)。具体而言,(1)查询推荐阶段,基于词相关性矩阵和动态规划思想构建查询推荐模型,将原始查询转换为关键字查询列表;(2)查询解释阶段,基于数据库统计信息及模式图,完成关键字查询到查询子图间的映射,该子图不仅包含与原始查询语义相关的内容信息,还包含关键字间潜在的结构信息;(3)在公开数据集DBLP上进行实验,结果验证了本文查询扩展方法的合理性及有效性。再次,针对现有查询方法需要在线进行表连接而导致查询效率较低,且无法适用于大规模数据库的问题,对关系数据库关键字查询方法进行研究。提出了一种基于主题类簇单元的离线方法TCU-Based查询(Query Based on Topic Cluster Units),适用于结构复杂的大规模关系数据库。具体而言,(1)形式化定义了主题类簇单元的概念,通过对数据表及元组进行垂直分组和水平分组,离线构建主题类簇单元集合并将其作为查询应答;(2)设计一种基于遗传算法的表连接优化方案,降低预处理时间开销,并基于关联规则算法提出索引优化机制提高查询效率;(3)在公开数据集Freebase上进行实验,结果表明该方法在查询效率和准确率方面显著优于传统关键字查询方法。最后,针对传统排序方法中影响因子权重需要人工手动设置而导致排序准确率较低的问题,对面向关系数据库的排序方法进行研究。将学习排序模型引入关系数据库领域,提出了一种虚拟文档列表级的并行学习排序方法PARR-H(Parallel AdaRdbRank-Hierarchy)。具体而言,(1)构建全局特征关联图,并在此基础上提出一种分层式弱排序器构建策略;(2)提出一种列表级学习排序算法ARR-H(AdaRdbRank-Hierarchy),并基于该算法进行并行化扩展研究,构建并行学习排序框架PARR-H,使排序准确率和训练效率得到良好兼顾;(3)分别在数据集OHSUMED、WSJ和AP上进行实验,实验结果表明本文学习排序方法PARR-H在排序有效性和训练效率方面均有显著提高。
暂无评论