结构化数据是一种组织结构明确的数据,具有价值密度高、便于存储和管理的特点。基于这些特点,很多有价值的信息采用结构化数据的形式存储。结构化数据的查询与人们的生产生活息息相关。但传统的结构化数据查询方式存在泛化能力弱、能表达的指令有限的问题,难以满足复杂多样的信息查询需求。自然语言查询指的是通过自然语言来查询结构化数据。这种查询方式可以弥补传统查询方式的不足,为用户带来更友好、灵活的查询体验。将自然语言转化为结构化查询语言SQL(Structured Query Language)是实现自然语言查询的方法之一。这种技术被称为自然语言生成SQL语句NL2SQL(Natural Language to SQL Statement)技术。现阶段,深度学习技术在自然语言处理领域上取得良好的效果,基于深度学习的NL2SQL方法成为热门研究方向。本文对现有的NL2SQL方法以及深度神经网络等技术展开分析与研究,设计并训练了一个NL2SQL模型。然后通过迁移学习方法将NL2SQL模型迁移到招标信息领域。利用迁移后的NL2SQL模型,本文设计并实现一个面向结构化招标信息的自然语言查询系统。本文的主要工作如下:1.分析自然语言生成SQL任务。本文根据SQL语法规则定义了一个SQL模板,并基于该SQL模板将自然语言生成SQL任务拆解为5个子任务。根据子任务取值集合的有限性,本文将子任务分为有限集合预测任务和无限集合预测任务两类。2.设计并训练自然语言生成SQL模型。本文采用分类模型和条件值预测模型分别处理有限集合预测任务和无限集合预测任务。分类模型将子任务关联关系体现到模型结构中,为子任务输入更多先验知识。同时,分类模型用SQL语法规则减少不符合语法的输出。条件值预测模型根据问句和数据表中的数据构建条件值取值集合,用取值集合约束条件值预测任务的输出空间,提高预测准确率。为了确定两个模型的最优超参数组合,本文在大规模中文单表数据集Table QA上进行了超参数优化实验。在该数据集的测试集上,模型整体的逻辑准确率和执行准确率分别达到了83.74%和88.86%。3.面向招标信息领域的模型迁移。为了使NL2SQL模型能更适应招标信息领域的查询任务,本文利用招标信息数据集将模型迁移,得到适用于招标信息领域的NL2SQL模型。其中,招标信息数据集通过人工标注与数据增强的方法构建。4.设计并实现自然语言查询系统。本文结合应用场景和用户需求,设计并实现了一个面向结构化招标信息的自然语言查询系统。利用迁移后的NL2SQL模型,系统实现了用自然语言查询结构化招标信息的功能。
暂无评论