检索结果-内蒙古大学图书馆

软件学报 2022年第11期33卷 4107-4136页

作者：刘喜平舒晴何佳壕万常选刘德喜江西财经大学信息管理学院江西南昌330013 江西农业大学软件学院江西南昌330013

数据库能够提供对大量数据的高效存储和访问,然而查询数据库需要掌握数据库查询语言sql,对于普通用户而言存在一定的门槛.基于自然语言的数据库查询(即text-to-sql)在最近几年受到了广泛的关注.对text-to-sql问题的当前进展进行了系统... 详细信息

数据库能够提供对大量数据的高效存储和访问,然而查询数据库需要掌握数据库查询语言sql,对于普通用户而言存在一定的门槛.基于自然语言的数据库查询(即text-to-sql)在最近几年受到了广泛的关注.对text-to-sql问题的当前进展进行了系统的分析.首先介绍了问题背景,并对问题进行了描述;其次,重点分析了目前提出的text-to-sql技术,包括基于流水线的方法、基于统计学习的方法,以及为多轮text-to-sql而开发的技术,对每种方法都进行了深入的分析和总结.再次,进一步讨论了text-to-sql所属的语义解析(semantic parsing)这一领域的研究.接着,总结了目前研究中广泛采用的数据集和评价指标,并从多个角度对主流模型进行了比较和分析.最后,总结了text-to-sql任务面临的挑战,以及未来的研究方向.

关键词：自然语言数据库查询 sql text-to-sql 语义解析自然语言处理

来源：评论

学校读者我要写书评

暂无评论

面向机场软件项目的通用模块生成器研究与应用

面向机场软件项目的通用模块生成器研究与应用

引用

作者：郭佳斌西安石油大学

学位级别：硕士

随着我国经济的快速发展,民航业的客运量也随之提升。尤其在各行各业倡导“智慧服务”的背景下,智慧机场系统达百种之多。然而,由于机场各种信息系统存在独立开发的情况,出现了复杂sql语句导致的开发效率低下、数据安全性差、二次开发... 详细信息

随着我国经济的快速发展,民航业的客运量也随之提升。尤其在各行各业倡导“智慧服务”的背景下,智慧机场系统达百种之多。然而,由于机场各种信息系统存在独立开发的情况,出现了复杂sql语句导致的开发效率低下、数据安全性差、二次开发困难等问题。为此,本文提出了一种基于深度学习和模板方法的解决方案,设计并实现了面向机场软件项目的通用模块生成器系统。主要工作内容如下。(1)构建了针对text-to-sql任务的ATSM模型。通过模板语法与ATSM模型相结合的形式,降低了预测自然语言转化为sql的任务量,解决了因复杂sql导致开发效率低的问题。由于模型基于Csprider数据集,对中文语义环境更为友好。与同类模型相比,ATSM模型有着更为准确的优势,各项测试均准确率大于85%,甚至有些测试项达到97%以上。(2)设计并实现了一个生成器系统。通过工程代码过滤,实现数据隔离,提高数据安全性;通过模板化模块代码,实现统一代码规范,降低二次开发难度。(3)改进了针对机场高并发需求的分布式架构。引入了ES分布式搜索引擎、消息队列、分布式对象存储等分布式组件,提高了软件级并发阈值;引入LVS四层设备,分离Nginx请求重定向和负载均衡,降低了模块间的耦合度并满足了各个模块的单一职责要求,提高了硬件级并发阈值。测试结果表明,系统中的ATSM模型和模板方法思路有效提高了机场软件开发效率和稳定性。系统上线后,相比传统的独立开发效率得到了明显提升。所提出的解决方案对比传统开发方式具有更高的开发效率和可靠性,且在高并发场景下具有动态扩展的能力。

关键词：通用模块生成器微服务 text-to-sql 高并发架构 sql模板语法

来源：评论

学校读者我要写书评

暂无评论

基于问句语义图神经网络的中文问句生成sql语句研究

引用

运筹与模糊学 2024年第1期14卷 83-90页

作者：张海芳何清龙贵州大学数学与统计学院贵州贵阳

自然语言问句转为结构化查询语句(text-to-sql)是语义解析领域中热点研究之一,其目标是将自然语言问句转化为数据库可以理解且执行的结构化查询语句。现有研究大部分仅考虑数据库层面的关联信息,忽略了问句中的实体关系信息的重要性。... 详细信息

自然语言问句转为结构化查询语句(text-to-sql)是语义解析领域中热点研究之一,其目标是将自然语言问句转化为数据库可以理解且执行的结构化查询语句。现有研究大部分仅考虑数据库层面的关联信息,忽略了问句中的实体关系信息的重要性。为了提高模型捕捉问句中语义的有用信息,本文在IGsql模型基础上,引入问句中实体之间的图网络信息,通过注意力机制来自动学习问句和数据库模式之间的关联。在Chase数据集上的实验结果表明,本文提出模型的完全匹配率达到46.2%。相比较于基线模型,完全匹配率提升了6.3%。

关键词： text-to-sql 自然语言处理图神经网络中文多表sql语句生成

来源：评论

学校读者我要写书评

暂无评论

Dataset and Enhanced Model for Eligibility Criteria-to-sql Semantic Parsing 12

Dataset and Enhanced Model for Eligibility Criteria-to-SQL S...

引用

12th International Conference on Language Resources and Evaluation (LREC)

作者： Yu, Xiaojing Chen, Tianlong Yu, Zhengjie Li, Huiyu Yang, Yang Jiang, Xiaoqian Jiang, Anxiao Texas A&M Univ College Stn TX 77843 USA Univ Sci & Technol China Hefei Anhui Peoples R China UT Southwestern Med Ctr Dallas TX USA Walmart Technol Bentonville AR USA Univ Texas Hlth Sci Ctr Houston Houston TX 77030 USA

ISBN: (纸本)9791095546344

Clinical trials often require that patients meet eligibility criteria (e.g., have specific conditions) to ensure the safety and the effectiveness of studies. However, retrieving eligible patients for a trial from the electronic health record (EHR) database remains a challenging task for clinicians since it requires not only medical knowledge about eligibility criteria, but also an adequate understanding of structured query language (sql). In this paper, we introduce a new dataset that includes the first-of-its-kind eligibility-criteria corpus and the corresponding queries for criteria-to-sql (Criteria2sql), a task translating the eligibility criteria to executable sql queries. Compared to existing datasets, the queries in the dataset here are derived from the eligibility criteria of clinical trials and include Order-sensitive, Counting-based, and Boolean-type cases which are not seen before. In addition to the dataset, we propose a novel neural semantic parser as a strong baseline model. Extensive experiments show that the proposed parser outperforms existing state-of-the-art general-purpose text-to-sql models while highlighting the challenges presented by the new dataset. The uniqueness and the diversity of the dataset leave a lot of research opportunities for future improvement.

关键词： Semantic Parsing text-to-sql Eligibility Criteria

来源：评论

学校读者我要写书评

暂无评论

Question Answering When Knowledge Bases are Incomplete 1

引用

11th International Conference of the CLEF Association (CLEF)

作者： Pradel, Camille Sileo, Damien Rodrigo, Alvaro Penas, Anselmo Agirre, Eneko Synapse Dev Toulouse France Univ Nacl Educ Distanca Madrid Spain Univ Basque Country UPV EHU Ixa NLP Grp Leioa Spain

ISBN: (数字)9783030582197

ISBN: (纸本)9783030582180;9783030582197

While systems for question answering over knowledge bases (KB) continue to progress, real world usage requires systems that are robust to incomplete KBs. Dependence on the closed world assumption is highly problematic, as in many practical cases the information is constantly evolving and KBs cannot keep up. In this paper we formalize a typology of missing information in knowledge bases, and present a dataset based on the Spider KB question answering dataset, where we deliberately remove information from several knowledge bases, in this case implemented as relational databases (The dataset and the code to reproduce experiments are available at https://github. com/camillepradel/IDK.). Our dataset, called IDK (Incomplete Data in Knowledge base question answering), allows to perform studies on how to detect and recover from such cases. The analysis shows that simple baselines fail to detect most of the unanswerable questions.

关键词： Question answering Knowledge bases Unanswerable questions text-to-sql Lifelong learning

来源：评论

学校读者我要写书评

暂无评论

基于自然语言处理的sql语句生成研究

引用

科学技术创新 2023年第22期 69-72页

作者：张康林戴一成公安部第三研究所上海

大数据时代下,数据的价值也随之提升,数据库作为海量数据的存储和管理工具,熟练掌握其查询语言至关重要。为了提升非专业数据库用户使用数据库的简捷度以及提高其数据库操作的效率和准确性,本研究提出了一种基于ChatGLM预训练模型的自... 详细信息

大数据时代下,数据的价值也随之提升,数据库作为海量数据的存储和管理工具,熟练掌握其查询语言至关重要。为了提升非专业数据库用户使用数据库的简捷度以及提高其数据库操作的效率和准确性,本研究提出了一种基于ChatGLM预训练模型的自然语言转sql查询语句的方法,即通过分词化、词嵌入、模型训练和模型测试等流程完成文本转sql研究。在由1020条sql查询语句构建的数据集上的实验表明,该方法的F1指数达到89.8%,能够满足普通用户的查询需求,促进了数据库的普及和应用。

关键词：自然语言处理 sql ChatGLM text-to-sql

来源：评论

学校读者我要写书评

暂无评论

智能情报问答关键技术与系统研究

智能情报问答关键技术与系统研究

引用

作者：郭爱博国防科技大学

学位级别：硕士

智能问答是人工智能领域一项重要的应用,它几乎出现在所有人机交互的过程中,例如智能客服,情感对话机器人等。用户可以通过智能问答技术获得想要的问题答案。而在军事情报领域,智能问答技术同样起到了至关重要的作用,它是辅助决策系统... 详细信息

智能问答是人工智能领域一项重要的应用,它几乎出现在所有人机交互的过程中,例如智能客服,情感对话机器人等。用户可以通过智能问答技术获得想要的问题答案。而在军事情报领域,智能问答技术同样起到了至关重要的作用,它是辅助决策系统中的关键一环。目前相关领域的研究工作主要分为检索式和生成式。检索式问答是使用已有的知识和数据,采用检索的方式返回给用户相关问题的答案。而生成式问答通过对用户自然语言问题的理解,利用预训练的语言模型生成相应的答案。两种方法都是较为主流且被认为是有效的方法。本文的研究侧重于情报领域数据上的智能问答技术研究。但是,情报领域数据存在获取难度大,数据量小,格式不统一,存储方式复杂等特点。对于采用检索式方法的问答系统,由于情报领域数据的数据量小,且人工标注难度大,难以实现高效准确的覆盖。而对于生成式问答系统,由于相关预训练模型的缺乏,也难以生成可读性强,置信度高的文本答案。鉴于此,本文提出了结合检索式和生成式方法的智能问答系统,结合两种方法的优点。具体的,本文提出了由三个部分构成的智能情报问答系统,第一部分是用户问题分类模型,用于将用户的问题分类,判断采用检索式或生成式方法;第二部分是用户问题匹配模型,用于被判定为适合采用检索式方法的用户问题,匹配知识库中最相似的问题文本,并返回相应的答案;最后,是针对需要使用数据库查询的用户问题,采用生成式方法,将用户问题转化为sql数据库查询语句,并生成回答文本。首先介绍结合How Net标准中文知识库的问题分类方法。在中文的问题分类任务上,分词错误和多义词歧义词等技术难点一直是难以克服的挑战。特别是在情报领域,一旦出现此类错误可能造成难以挽回的损失。为此,本文设计了一种具有外部知识感知能力的双向晶格长短期记忆网络(SK-Lattice)。该模型增加了链接词汇首尾单字的路径以控制信息流。同时设计了附加的门控机制对多义词歧义词的多种意义施加选择性注意力,并动态强调词汇的正确意义。在实验中,在军事领域数据集及标准中文文本分类基准数据集上,对比了20种经典分类方法。由于公开渠道获取的情报领域数据数据量较小,难以满足充分训练高准确率问题匹配模型的需求。为此本文设计了一个基于对抗训练的跨领域问题匹配模型X-QR。X-QR使用其他数据量充足领域的标准开源中文问题数据,利用域鉴别器进行对抗训练,实现源域数据与目标域数据的分布对齐和特征空间的统一。以此进行知识迁移,利用问题匹配器学习域统一的知识,在数据量较小的情报领域数据上实现精准的问题匹配。对于无法匹配到已有问题进行回答或数据存储于数据库中的情况,则采用生成式方案。值得注意的是军事领域的数据很多是存放在关系型数据库中,例如sql Server。这就涉及到文本转sql(text-to-sql)技术。现有主流模型采用基于模板填充的方法,通过填充槽值的方式生成sql查询语句。但是,如果查询包含属于不同列的多个值,传统方法可能无法准确提取值。此外,如果查询没有显式的提及相应的列名,也很难推断出正确的值。为了弥补这一缺陷,本文提出了一种新的神经网络模型,即ER-sql。ER-sql使用表格内容来更好地提取列的特征。此外,ER-sql利用列表示来学习潜在的关联信息,进而增强并重构sql查询。最后,在实验中,利用情报领域数据和开源数据分别验证ER-sql模型的有效性。最后,本研究还利用公开途径收集到的情报领域数据,对智能情报问答系统进行了原型设计,并利用所设计的模型算法构建了完整的智能问答系统原型。从系统的实际需求出发,实现了多场景下的智能问答应用。传统的智能问答只采用一种技术方案,检索式或生成式。而情报领域数据的特点是单一技术方案难以克服的。为了解决这些问题,本文提出了智能情报问答系统的三个重要组成部分。结合两种技术方案的优点,高效且准确的实现情报领域的问答。在实验中验证了算法和模型的有效性。同时,利用多项技术创新,设计了完整的智能情报问答原型系统,为下一步的开发奠定了基础。

关键词：智能问答问题分类对抗训练问题匹配问题解析 text-to-sql

来源：评论

学校读者我要写书评

暂无评论

Selecting and Generating Computational Meaning Representations for Short texts

Selecting and Generating Computational Meaning Representatio...

引用

作者： Finegan-Dollak, Catherine University of Michigan

学位级别：Ph.D.

Language conveys meaning, so natural language processing (NLP) requires representations of meaning. This work addresses two broad questions: (1) What meaning representation should we use? and (2) How can we transform text to our chosen meaning representation? In the first part, we explore different meaning representations (MRs) of short texts, ranging from surface forms to deep-learning-based models. We show the advantages and disadvantages of a variety of MRs for summarization, paraphrase detection, and clustering. In the second part, we use sql as a running example for an in-depth look at how we can parse text into our chosen MR. We examine the text-to-sql problem from three perspectives—methodology, systems, and applications—and show how each contributes to a fuller understanding of the task.

关键词： meaning representations semantics natural language processing text-to-sql Thesis

来源：评论

学校读者我要写书评

暂无评论

A Survey on Employing Large Language Models for text-to-sql Tasks

引用

ACM Computing Surveys 1000年

作者： Liang Shi Zhengju Tang Nan Zhang Xiaotong Zhang Zhi Yang School of Computer Science Peking University Beijing China School of Computer Science Peking University Beijing China ZettaData US Bellevue United States Beijing Bytedance Technology Co Ltd Beijing China

With the development of the Large Language Models (LLMs), a large range of LLM-based text-to-sql(text2sql) methods have emerged. This survey provides a comprehensive review of LLM-based text2sql studies. We first enumerate classic benchmarks and evaluation metrics. For the two mainstream methods, prompt engineering and finetuning, we introduce a comprehensive taxonomy and offer practical insights into each subcategory. We present an overall analysis of the above methods and various models evaluated on well-known datasets and extract some characteristics. Finally, we discuss the challenges and future directions in this field.

关键词： Large Language Models text-to-sql Prompt Engineering Fine-tuning

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：