检索结果-内蒙古大学图书馆

软件学报 2025年第1期36卷 371-398页

作者：李彤徐都玲吴波郭雄文蒋岱均罗成卢卫杜小勇数据工程与知识工程教育部重点实验室(中国人民大学) 北京100872 中国人民大学信息学院北京100872 腾讯科技有限公司北京100080

广域网作为连接新业务、新基础设施和各类新型应用的纽带,已成为21世纪最重要的基础设施之一.近年来,数据量爆炸性增长,伴随着基于广域网的大模型、数字经济、元宇宙和全息社会等新型应用形态的持续涌现,以及东数西算、算力网络和数据... 详细信息

广域网作为连接新业务、新基础设施和各类新型应用的纽带,已成为21世纪最重要的基础设施之一.近年来,数据量爆炸性增长,伴随着基于广域网的大模型、数字经济、元宇宙和全息社会等新型应用形态的持续涌现,以及东数西算、算力网络和数据场等新型业务架构的出现,业务对广域网的数据传输服务质量提出了越来越高的要求.以时延为例,广域网不仅需要提供及时的服务,还需要提供准时的服务,即时延成为必须满足的确定性指标.因此,广域确定性网络作为广域网的新范式应运而生.系统地综述确定性网络的内涵,回顾传统确定性网络相关技术发展脉络,介绍广域确定性网络的新应用,探讨广域网确定性网络传输具有的新特征以及面临的新挑战,并提出广域确定性网络的新目标.基于上述新应用、新特征、新挑战和新目标,详细总结当前广域确定性网络领域的主要研究进展,并给出未来研究的方向.期望能为广域确定性网络领域的研究提供参考和帮助.

关键词：广域网确定性网络数据传输改良式革命式

来源：评论

学校读者我要写书评

暂无评论

智能数据库学习型索引研究综述

引用

计算机学报 2023年第1期46卷 51-69页

作者：蔡盼张少敏刘沛然孙路明李翠平陈红中国人民大学数据工程与知识工程教育部重点实验室北京100872 中国人民大学信息学院北京100872

建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据... 详细信息

建立高效的索引结构是提升数据库存取性能的关键技术之一.在数据呈爆发式增长、海量聚集、高维复杂的大数据环境下,传统索引结构(例如B+树)处理海量数据时面临空间代价高、查询效率低、存取开销大等难题.学习型索引技术通过对底层数据分布、查询负载等特征进行建模和学习,有效的提升了索引性能,并减少了访存空间开销.本文从学习型索引技术的基础模型入手,对RMI基础模型实现原理、构造和查询过程进行了分析,并总结了基础模型的优点和存在的问题;以此为基础,按照索引结构特点对学习型索引技术进行分类,从索引创建方式和更新策略两方面对学习型索引技术进行了系统梳理,并对比分析了典型学习型索引技术的优点及不足之处.另外,本文总结了学习型索引技术的扩展研究.最后,对学习型索引的未来研究方向进行了展望.

关键词：机器学习学习型索引索引结构 RMI模型智能数据库

来源：评论

学校读者我要写书评

暂无评论

基于区域划分与降维的高维学习型索引

引用

软件学报 2023年第5期34卷 2413-2426页

作者：张少敏蔡盼李翠平陈红数据工程与知识工程教育部重点实验室(中国人民大学) 北京100872 中国人民大学信息学院北京100872

在数据量与数据复杂度不断增加的时代,大数据处理与分析成为当前的热门研究内容,高维空间数据的使用越来越频繁,数据检索和访问速度成了衡量数据处理系统性能的重要指标.因此,如何设计实现一种高效的高维索引结构,提高查询访问速率、降... 详细信息

在数据量与数据复杂度不断增加的时代,大数据处理与分析成为当前的热门研究内容,高维空间数据的使用越来越频繁,数据检索和访问速度成了衡量数据处理系统性能的重要指标.因此,如何设计实现一种高效的高维索引结构,提高查询访问速率、降低内存占用,变得至关重要.近年,Kraska等人提出了学习型索引的方法.实验证明该方法在真实数据集上表现良好.之后机器学习与深度学习在数据库系统中的运用越来越广泛.众多研究者尝试在高维数据上构建学习型索引,来提升高维数据的查询速度.但是目前的高维学习型索引采用的方法并不能将数据分布的信息有效利用起来,而且过于复杂的深度学习模型使得索引初始化开销过大.结合空间区域划分与降维两种技术,提出一种新颖的高维学习型索引.它能更有效地利用数据分布信息提高索引的查询效率,并利用多段线性模型在保证查找精确度的前提下尽可能减少索引初始化的开销.分别在随机生成的数据集和开源街区地图数据集上进行实验验证.结果表明,与现有的高维索引相比,其在索引构建、查询效率、以及内存占用方面都有显著提高.

关键词：学习型索引高维数据希尔伯特曲线机器学习

来源：评论

学校读者我要写书评

暂无评论

分布式数据库多级一致性统一建模理论研究

引用

软件学报 2023年第5期34卷 2392-2412页

作者：水治禹卢卫赵展浩何粤阳张孝杜小勇数据工程与知识工程教育部重点实验室(中国人民大学) 北京100872 中国人民大学信息学院北京100872

分布式数据库系统出现了支持多协调器和多副本存储的新架构,这给事务调度的正确性带来了新的挑战,包括缺少中心协调器带来的新数据异常以及多副本机制带来的读取数据一致性等问题.基于事务隔离级别和分布式系统一致性协议的定义,为多协... 详细信息

分布式数据库系统出现了支持多协调器和多副本存储的新架构,这给事务调度的正确性带来了新的挑战,包括缺少中心协调器带来的新数据异常以及多副本机制带来的读取数据一致性等问题.基于事务隔离级别和分布式系统一致性协议的定义,为多协调器多副本分布式数据库的事务多级一致性构建了一个混合依赖图模型.该形式化模型为事务的正确调度提供具有鲁棒性的评价标准,可以方便地对数据库事务调度情况进行动态或静态分析检验.

关键词：分布式数据库一致性隔离级别混合依赖图

来源：评论

学校读者我要写书评

暂无评论

面向列语义识别的共现属性交互模型构建与优化

引用

软件学报 2023年第3期34卷 1010-1026页

作者：高珊袁宛竹卢卫王兰张静杜小勇数据工程与知识工程教育部重点实验室(中国人民大学) 北京100872 中国人民大学信息学院北京100872

政务数据治理正在经历从“物理数据汇聚”到“逻辑语义汇通”的新阶段.逻辑语义汇通是指针对各孤岛政务系统因长期“自治”而形成的元数据缺失、元数据同名不同义以及同义不同名等问题,在不重建或修改原系统代码以及不物理汇聚各政务数... 详细信息

政务数据治理正在经历从“物理数据汇聚”到“逻辑语义汇通”的新阶段.逻辑语义汇通是指针对各孤岛政务系统因长期“自治”而形成的元数据缺失、元数据同名不同义以及同义不同名等问题,在不重建或修改原系统代码以及不物理汇聚各政务数据的前提下,通过技术手段,统一各孤岛信息系统元数据的语义表达,实现元数据的语义互联互通.该工作是将各孤岛信息系统的元数据语义对齐到已有的标准元数据上,具体地,将标准元数据名称看作语义标签,对孤岛关系数据的列投影进行语义识别,从而建立列名和标准元数据的语义对齐,实现孤岛元数据标准化治理.已有基于列投影的语义识别技术无法捕捉到关系数据的列顺序无关性特征以及属性语义标签之间的相关性特征,针对这一问题,提出了基于预测阶段和纠错阶段的两阶段模型:在预测阶段,提出了共现属性交互的CAI模型(co-occurrence-attribute-interactionmodel),利用并行化的自注意力机制保证列顺序无关的共现属性交互;在纠错阶段,结合语义标签之间的共现性,通过引入纠错机制(correction mechanism),优化CAI模型预测结果.在政务基准数据和Magellan等多组公开英文数据集上进行了实验,结果表明,引入纠错机制的两阶段模型,在宏平均和加权平均两个指标上,比已有最优模型最多可分别提高20.03%, 13.36%.

关键词：孤岛政务逻辑语义汇通列语义识别共现交互注意力机制

来源：评论

学校读者我要写书评

暂无评论

基于确定性并发控制的云原生数据库多写事务处理

引用

软件学报 2025年第3期36卷 995-1021页

作者：洪殷昊赵泓尧王乙霖史心悦卢卫杨尚杜胜数据工程与知识工程教育部重点实验室(中国人民大学) 北京100872 中国人民大学信息学院北京100872 北京人大金仓信息技术有限公司北京100872

云原生数据库具有开箱即用、弹性伸缩、按需付费等优势,是目前学术界和工业界的研究热点.当前,云原生数据库仅支持“一写多读”,即读写事务集中在单一的读写节点,只读事务分散到多个只读节点.将读写事务集中在单一的读写节点,制约了系... 详细信息

云原生数据库具有开箱即用、弹性伸缩、按需付费等优势,是目前学术界和工业界的研究热点.当前,云原生数据库仅支持“一写多读”,即读写事务集中在单一的读写节点,只读事务分散到多个只读节点.将读写事务集中在单一的读写节点,制约了系统的读写事务处理能力,难以满足读写密集型业务需求.为此,提出D3C(deterministic concurrency control cloud-native database)架构,通过设计基于确定性并发控制的云原生数据库事务处理机制来突破一写多读的限制,支持多个读写节点并发执行读写事务.D3C将事务分拆为子事务,并根据预先确定的全局顺序在各节点独立执行这些子事务,以满足多个读写节点上事务执行的可串行化.此外,提出基于多版本机制的异步批量数据持久化等机制以保证事务处理的性能,并提出基于一致性点的故障恢复机制以实现高可用.实验结果表明,D3C在满足云原生数据库关键需求的同时,在写密集场景下能够达到一写多读性能的5.1倍.

关键词：云原生数据库确定性并发控制事务处理

来源：评论

学校读者我要写书评

暂无评论

GPU数据库OLAP优化技术研究

引用

软件学报 2023年第11期34卷 5205-5229页

作者：张延松刘专韩瑞琛张宇王珊数据工程与知识工程教育部重点实验室(中国人民大学) 北京100872 中国人民大学信息学院北京100872 国家卫星气象中心北京100081

GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模... 详细信息

GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模型更加适合,则需要更深入的研究.基于GPU的OLAP引擎有两个主要的技术路线:GPU内存处理模式和GPU加速模式.前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能,不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率.后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集,主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率.致力于将两种技术路线集成到OLAP加速引擎中,研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator,设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型,实现GPU平台向量化查询处理技术,优化显存利用率和查询性能,探索GPU数据库的不同的技术路线和性能特征.实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能,与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速.基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载,能够比GPU内存模式支持更大的数据集.

关键词：混合CPU-GPU平台 GPU加速OLAP OLAP GPU内存 GPU量化处理模型

来源：评论

学校读者我要写书评

暂无评论

GPU数据库实现技术发展演进

引用

计算机学报 2024年第11期47卷 2691-2724页

作者：刘鹏陈红张延松李翠平数据工程与知识工程教育部重点实验室北京100872 中国人民大学信息学院北京100872 数据库与商务智能教育部工程研究中心北京100872

爆炸式增长的数据对存储和处理数据提出了更高的需求,GPU数据库作为新硬件数据库的一个重要分支,在大容量和高性能处理方面有其独特的优势.GPU数据库作为高性能数据库的代表,在最近几年受到学术界和产业界的关注,一批具有代表性的研究... 详细信息

爆炸式增长的数据对存储和处理数据提出了更高的需求,GPU数据库作为新硬件数据库的一个重要分支,在大容量和高性能处理方面有其独特的优势.GPU数据库作为高性能数据库的代表,在最近几年受到学术界和产业界的关注,一批具有代表性的研究成果和标志性的实际产品已经出现.GPU数据库的技术发展按照GPU加速型和GPU内存型两种技术路线展开.两种技术路线都有相应的原型系统或产品出现.虽然两种GPU数据库的发展路线在实现上有所不同,但GPU数据库最基本的功能部分和核心技术是相似的,都有查询编译、查询优化、查询执行以及存储管理等功能.当前主流的数据传输方案除了PCIe之外,NVLink、RDMA和CXL等传输方案也为不同处理器之间的数据传输提供了更多的可能性.大多数GPU数据库使用列存储模型来存储数据,少数GPU数据库(如PG-Strom)对两种存储模型都支持.在列存储模型上利用压缩技术能减少数据的存储空间和传输时延.在GPU数据库上进行的压缩和解压的时间应该在整个数据处理的过程中占比很少.在GPU数据库上建立和维护索引不应该有很大的系统开销.JIT编译时间短、编译效率高,是GPU数据库编译的主流.操作符对数据库查询性能的影响非常明显,连接操作、分组聚集和OLAP运算符是目前研究最多的三个类型.目前大多数的研究中,连接和分组聚集算子通常结合在一起研究.在连接算子执行的过程中还和表的连接顺序结合在一起进行考虑.OLAP算子是GPU数据库中的又一个被大量研究的算子,GPU数据库在OLAP算子和模型方面持续受到研究者的关注.GPU数据库有三种查询处理模型,即行处理、列处理和向量化处理.向量化处理和列处理在实际系统中应用较多.由于GPU加速型数据库技术的发展,CPU-GPU协同处理模型上的查询方案与查询引擎也有一定数量的研究成果出现.当前GPU数据库的查询优化研究主要有三部分:多表连接顺序、查询重写和代价模型.然而,GPU数据库的代价评估模型在目前还没有很好的解决方案,GPU数据库的查询优化在未来仍有很大的研究空间.事务在GPU数据库中没有得到很好的研究,尽管有单独的原型系统,但目前的研究还没有取得重大进展.本文总结了GPU数据库各种关键技术已有的研究成果,指出GPU数据库当前存在的问题和面临的挑战,对未来的研究方向进行了展望.

关键词： GPU数据库数据压缩算子优化 OLAP查询查询处理

来源：评论

学校读者我要写书评

暂无评论

数据库参数配置智能调优研究综述

引用

计算机学报 2024年第8期47卷 1901-1921页

作者：李奕言田季坤蒲照李翠平陈红中国人民大学信息学院北京100872 数据库与商务智能教育部工程研究中心北京100872 数据工程与知识工程教育部重点实验室北京100872

数据库系统具有大量的参数,这些参数控制了系统的内存分配、I/O优化、备份与恢复等诸多方面,极大地影响着数据库的性能.随着数据库和应用程序的规模和复杂性的增长,传统依靠数据库管理员手动配置参数的方式已经越来越难以满足用户需求.... 详细信息

数据库系统具有大量的参数,这些参数控制了系统的内存分配、I/O优化、备份与恢复等诸多方面,极大地影响着数据库的性能.随着数据库和应用程序的规模和复杂性的增长,传统依靠数据库管理员手动配置参数的方式已经越来越难以满足用户需求.数据库参数配置智能调优将机器学习技术应用到参数调优领域,依据负载信息、数据库参数和性能,借助机器学习算法推荐一组最优的参数.本文针对现有参数配置智能调优技术,从调优方法、应用情况和未来挑战三个方面依次进行梳理和总结.首先将现有参数调优方法依据所用算法不同分为五类,从原理、技术、优缺点等方面对各类方法进行详细介绍和总结.之后介绍当前工业界主流的参数调优工具,分析参数配置智能调优在实际应用过程中遇到的问题及原因.最后,本文对数据库参数配置智能调优的未来研究方向进行了展望.本文旨在帮助研究者掌握当前数据库参数配置智能调优领域主流方法及面临的问题,以推动后续研究工作的开展.

关键词：机器学习参数调优贝叶斯优化强化学习智能数据库

来源：评论

学校读者我要写书评

暂无评论

基于谱聚类的在线数据库垂直分区多阶段生成方法

引用

软件学报 2023年第6期34卷 2804-2832页

作者：刘鹏举李好洋王天一刘欢孙路明任逸飞李翠平陈红数据工程与知识工程教育部重点实验室(中国人民大学) 北京100872 中国人民大学信息学院北京100872 华为云数据库创新Lab 广东深圳518100

垂直数据分区技术从逻辑上将满足一定语义条件的数据库表属性存放在同一个物理块中,进而降低数据访问成本,提高查询效率.数据库查询负载中的每条查询通常只与数据库表中的部分属性有关,因此只需使用数据库表的某个属性子集便可以得到准... 详细信息

垂直数据分区技术从逻辑上将满足一定语义条件的数据库表属性存放在同一个物理块中,进而降低数据访问成本,提高查询效率.数据库查询负载中的每条查询通常只与数据库表中的部分属性有关,因此只需使用数据库表的某个属性子集便可以得到准确的查询结果.合理的垂直数据分区方式可以使大多数查询负载不需要扫描完整数据库就可以完成查询任务,从而达到减少数据访问量,提高查询处理效率的目的.传统的数据库垂直分区方法主要基于专家设置的启发式规则,分区策略粒度较粗,且不能根据负载的特征进行有针对性的分区优化.同时,当负载规模较大或者属性个数较多时,现有垂直分区方法执行时间过长,尤其无法满足数据库在线实时调优的性能需求.为此,提出在线环境下基于谱聚类的垂直数据分区方法(spectral clustering based vertical partitioning,SCVP),采用分阶段求解的思想,减少算法时间复杂度,加快分区执行速度.首先通过增加约束条件缩小解空间(即根据谱聚类生成初始分区),然后对解空间设计算法进行精细的搜索(即采用频繁项集和贪心搜索相结合的策略对初始分区进行优化).为了进一步提升SCVP在高维属性下的性能,提出了SCVP的改进版本SCVP-R(spectral clustering based vertical partitioning redesign).SCVP-R通过引入同域竞争机制、双败淘汰机制和循环机制,对SCVP在分区优化过程中的合并方案进行了进一步优化.在不同数据集上的实验结果表明,相比于目前最好的垂直分区方法,SCVP和SCVP-R有着更快的执行时间和更好的性能表现.

关键词：垂直分区谱聚类频繁项集贪心搜索多阶段决策

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：