检索结果-内蒙古大学图书馆

International Conference on Management of Data (SIGMOD)

作者： Xin, Jinhan Hwang, Kai Yu, Zhibin Chinese Acad Sci Shenzhen Inst Adv Technol SIAT Shenzhen Guangdong Peoples R China Univ Chinese Acad Sci UCAS Beijing Peoples R China Chinese Univ Hong Kong Shenzhen Guangdong Peoples R China Shenzhen Huawei Cloud Comp Co Ltd Shuhai Lab Shenzhen Guangdong Peoples R China

ISBN: (纸本)9781450392495

spark sql has been widely deployed in industry but it is challenging to tune its performance. Recent studies try to employ machine learning (ML) to solve this problem, but suffer from two drawbacks. First, it takes a long time (high overhead) to collect training samples. Second, the optimal configuration for one input data size of the same application might not be optimal for others. To address these issues, we propose a novel Bayesian Optimization (BO) based approach named LOCAT to automatically tune the configurations of spark sql applications online. LOCAT innovates three techniques. The first technique, named QCSA, eliminates the configuration-insensitive queries by Query Configuration Sensitivity Analysis (QCSA) when collecting training samples. The second technique, dubbed DAGP, is a Datasize-Aware Gaussian Process (DAGP) which models the performance of an application as a distribution of functions of configuration parameters as well as input data size. The third technique, called IICP, Identifies Important Configuration Parameters (IICP) with respect to performance and only tunes the important ones. As such, LOCAT can tune the configurations of a spark sql application with low overhead and adapt to different input data sizes. We employ spark sql applications from benchmark suites TPC-DS, TPC - H, and HiBench running on two significantly different clusters, a four-node ARM cluster and an eight-node x86 cluster, to evaluate LOCAT. The experimental results on the ARM cluster show that LOCAT accelerates the optimization procedures of the state-of-the-art approaches by at least 4.1x and up to 9.7x;moreover, LOCAT improves the application performance by at least 1.9x and up to 2.4x. On the x86 cluster, LOCAT shows similar results to those on the ARM cluster.

关键词： big data in-memory computing spark spark sql

来源：评论

学校读者我要写书评

暂无评论

Query Optimization Approach with Shuffle Intermediate Cache Layer for spark sql 38

Query Optimization Approach with Shuffle Intermediate Cache ...

引用

IEEE 38th International Performance Computing and Communications Conference (IPCCC)

作者： Zhai, Mingyu Song, Aibo Qiu, Jingyi Ji, Xuechun Wu, Qingxi NARI Technol NARI Res Inst Nanjing Peoples R China Southeast Univ Sch Comp Sci & Engn Nanjing Peoples R China Southeast Univ Sch Cyber Sci & Engn Nanjing Peoples R China

ISBN: (纸本)9781728110257

spark sql is a big data processing tool for structured data query and analysis. However, due to the execution of spark sql, there are multiple times to write intermediate data to the disk, which reduces the execution efficiency of spark sql. Targeting on the existing issues, we design and implement an intermediate data cache layer between the underlying file system and the upper spark core to reduce the cost of random disk I/O. By using the query pre-analysis module, we can dynamically adjust the capacity of cache layer for different queries. And the allocation module can allocate proper memory for each node in cluster. This paper develops the SSO (spark sql Optimizer) module and integrates it into the original spark system to achieve the above functions. This paper compares the query performance with the existing spark sql by experiment data generated by TPC-H tool. The experimental results show that the SSO module can effectively improve the query efficiency, reduce the disk I/O cost and make full use of the cluster memory resources.

关键词： spark spark sql intermediate data caching cost-based optimization

来源：评论

学校读者我要写书评

暂无评论

基于收益模型的spark sql数据重用机制

引用

计算机研究与发展 2020年第2期57卷 318-332页

作者：申毅杰曾丹熊劲计算机体系结构国家重点实验室(中国科学院计算技术研究所) 北京100190 中国科学院大学北京100049

通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.spark sql是spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源... 详细信息

通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.spark sql是spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是spark sql无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于spark sql和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始spark sql提升了46%~68%.

关键词：数据分析大数据 spark sql 重复计算数据重用收益模型

来源：评论

学校读者我要写书评

暂无评论

spark sql系统查询优化的研究与实现

SPARK SQL系统查询优化的研究与实现

引用

作者：丁凯泽北京邮电大学

学位级别：硕士

信息化技术的普及与移动互联的迅速崛起,带来了前所未有的“大数据”时代。数据量的飞速爆炸,使得利用及研究数据面临重大挑战,怎样在海量数据中,钻取、挖掘、进而获取数据带来的价值变得尤为关键。在近几年的大数据技术中,以MapReduce... 详细信息

信息化技术的普及与移动互联的迅速崛起,带来了前所未有的“大数据”时代。数据量的飞速爆炸,使得利用及研究数据面临重大挑战,怎样在海量数据中,钻取、挖掘、进而获取数据带来的价值变得尤为关键。在近几年的大数据技术中,以MapReduce编程模型为核心框架的诸多大数据系统,充分利用并行计算优势,实现了高效的海量数据处理,因此得到了广泛的应用。sql-on-Hadoop系统作为大数据时代重要的工具,不仅拥有sql简单易用的特性,同时具备了 Hadoop系统的优点,能够处理海量数据,挖掘大数据中潜在的价值。spark sql作为最具代表性的sql-on-Hadoop系统,但其在面对海量数据(TB)的查询时,依然无法在短时间内得到查询结果,查询的延时会大大降低用户的使用体验。因此,如何提高spark sql系统的查询效率成为了研究热点。本文针对当前spark sql系统的不足,提出了一套通用的sql-on-Hadoop系统查询的优化方案,并对该方案进行了系统实现。首先,通过对查询场景的分析,本文将原始数据重写为列式存储格式Parquet来更好的处理分析型查询事务;其次,在Parquet的元数据生成阶段,本文加入了布隆过滤器和直方图两种数据结构;第三,在谓词下推阶段,本文通过访问布隆过滤器和直方图来提升无效数据过滤的效率;最后,针对查询中经常存在的LIMIT语句,本文在spark任务执行阶段通过排序的方式实现了提前退出,从而减少不必要的执行时间。本文的优化方案从底层格式存储入手,重点加强无效数据过滤(Data Skipping)的效率,系统的,逐级并且有效的提升了 spark sql系统的查询效率。本文首先根据当前spark sql系统的不足对查询优化的主要工作内容进行了分析;其次对spark sql系统查询的优化进行了研究并进行了详细设计,明确了系统的功能模块划分以及各模块需要实现的功能;最后,本文对所提出的方案进行了测试实验,验证了优化方案的完整性及有效性。

关键词： spark sql 布隆过滤器直方图 Data Skipping

来源：评论

学校读者我要写书评

暂无评论

spark sql查询执行优化技术研究

Spark SQL查询执行优化技术研究

引用

作者：万雨桐东南大学

学位级别：硕士

随着互联网的快速发展,政府机关、企业与研究机构每天都要产生和处理的数据规模已经达到TB级乃至PB级。虽然Hadoop的出现解决了大数据在多台计算机上的可靠存储和处理问题,但是该计算框架也存在一定的问题,即运算产生的中间结果会存放在... 详细信息

随着互联网的快速发展,政府机关、企业与研究机构每天都要产生和处理的数据规模已经达到TB级乃至PB级。虽然Hadoop的出现解决了大数据在多台计算机上的可靠存储和处理问题,但是该计算框架也存在一定的问题,即运算产生的中间结果会存放在HDFS文件系统中,并且Hadoop的MapReduce工作流是由很多的MapTask和ReduceTask组成,大量的MapTask与ReduceTask之间的的交互会造成频繁的读写中间数据,因此会带来大量的磁盘读写开销。为了解决Hadoop所面临的问题,spark技术应运而生。spark是一种分布式的内存计算框架,并且它延续了Hadoop的MapReduce计算模型,所不同的是spark使用了一种更快的工作流DAG(Directed Acyclic Graph),通过减少Shuffle的次数让数据更多地在内存中进行读写。但是spark的Shuffle过程仍不可避免的把中间数据放在硬盘上进行读写,并且在spark sql作业流中,存在着对冗余数据进行读写的情况。本文针对目前spark中存在的问题,对spark sql作业查询执行优化技术进行研究。本文深入分析了spark sql的工作流程,结合sql查询的特点,在底层持久化文件系统与上层spark核心间加入中间数据缓存层以解决对该数据的随机I/O读写开销,并且通过查询预分析模块,可以动态地调整缓存层的大小以适应不同的查询,同时针对连接操作Shuffle数据量较难计算的情况,提出了直方图法进行分析,最后缓存层分配模块为集群中的每个结点分配合适的内存。针对spark sql作业流中存在的输入数据和中间数据共享的情况,本文提出了基于代价的相关性合并算法,来权衡合并共享数据所带来的收益和产生的额外开销,以决定是否对这些具有相关性的作业进行合并,从而实现集群资源的高效利用,提高系统运行效率,加快查询任务的执行速度。本文在现有的spark sql的基础上进行改进,开发了SSO(spark sql Optimizer)系统,实现了上述功能。通过搭建实验平台,使用基准测试工具TPC-H生成测试数据,与现有的spark sql就查询性能进行分析比较。实验结果表明,改进后的SSO系统能够有效提高查询速度,减少磁盘I/O开销,充分利用集群的内存资源,具有明显的优势。

关键词： spark spark sql 中间数据缓存基于代价的优化

来源：评论

学校读者我要写书评

暂无评论

spark sql等值连接优化算法研究

Spark SQL等值连接优化算法研究

引用

作者：李思慧北京交通大学

学位级别：硕士

科学技术的发展以及互联网的普及推动着大数据时代的到来,全球每天都在产生海量的数据,数据的计量单位己从Byte、KB、MB发展到了 PB、EB甚至于YB、BB。面对如此众多的数据,大数据分析成为一个研究热点,同时以Hadoop、spark为首的大数据... 详细信息

科学技术的发展以及互联网的普及推动着大数据时代的到来,全球每天都在产生海量的数据,数据的计量单位己从Byte、KB、MB发展到了 PB、EB甚至于YB、BB。面对如此众多的数据,大数据分析成为一个研究热点,同时以Hadoop、spark为首的大数据处理平台应运而生。spark sql是spark中用于处理结构化数据的模块,它提供的表连接操作性能较低,但在大数据的分析中大表等值连接操作又使用频繁,因此,本文针对spark sql中的等值连接算法进行了优化。论文针对现有等值连接算法不能适用于不同场景的问题,提出一种基于扩展Partial Bloom Filter的等值连接优化算法EPBF Join算法,该算法的优化主要体现在两个方面:首先,EPBF Join算法对Partial Bloom Filter数据结构进行扩展,使之能够并行计算从而减少数据过滤阶段消耗的时间,提高整体连接性能;其次,EPBF Join算法能够根据数据量的大小自动改变位数组的个数,使之满足数据量未知的场景,从而实现了同时适用于数据量己知和数据量未知两种应用场景。论文针对等值连接操作在数据倾斜情况下性能较低的问题进行重点研究,提出了一种基于Space-Code Bloom Filter的可预估数据倾斜的等值连接优化算法SCBF-ESD Join算法。该算法的优化及其创新性工作主要体现在四方面:第一,SCBF-ESD Join算法提出一种新的基于SCBF的过滤策略,在完成数据过滤基础上,能够同时获取有效连接属性的频数,为计算数据倾斜程度带来便利。第二,SCBF-ESD Join算法对等值连接流程进行优化,增加了判断数据倾斜和减少数据倾斜阶段,使之无论在数据是否倾斜的情况下都能够适用;第三,在判断数据倾斜阶段提出一种新的数据倾斜程度计算策略,可以根据有效连接属性的频数来计算过滤后的数据倾斜程度;第四,在减少数据倾斜阶段提出一种添加前缀再分区策略,将随机添加前缀法与一致性哈希算法相融合,实现了重复属性的分散和再分区,降低了数据倾斜对连接算法性能造成的影响。论文分别从理论和实验两个方面对提出的两种优化算法进行了分析和验证。首先通过代价分析验证了两个优化算法在理论上的有效性,然后完成多组对比实验。实验结果表明,EPBF Join算法无需关心数据量大小就可以进行高效的连接;SCBF-ESD Join算法无论是否存在数据倾斜,都能通过预估数据倾斜程度,采用不同的操作,从而取得较好的连接性能,验证了所提出的数据倾斜程度计算策略和添加前缀再分区策略的有效性。

关键词： spark sql 等值连接数据倾斜扩展 Partial Bloom Filter Space-Code Bloom Filter

来源：评论

学校读者我要写书评

暂无评论

spark sql结构化数据处理及性能优化

Spark SQL结构化数据处理及性能优化

引用

作者：罗昭重庆邮电大学

学位级别：硕士

近年来spark内存计算框架快速崛起,数据处理速度得到极大的提高,但是其速度上限却受限于spark内存规模。当数据量小于或接近内存容量时spark性能最好,反之则性能较差。因此spark sql在处理以4G行业卡数据为代表的通信大数据时暴露出了... 详细信息

近年来spark内存计算框架快速崛起,数据处理速度得到极大的提高,但是其速度上限却受限于spark内存规模。当数据量小于或接近内存容量时spark性能最好,反之则性能较差。因此spark sql在处理以4G行业卡数据为代表的通信大数据时暴露出了诸多问题,如读写速度和查询速度缓慢、系统资源分配不均或不足、大表Join效率低等。本文从spark sql的数据组织方式、spark资源管理机制和Join算法三个方面处理结构化数据并进行相关的性能优化。首先提出了改进的数据组织框架以提高spark sql的读写和查询速度,其次建立了资源监控模型合理的分配和使用资源,最后基于改进的数据组织框架和监控模型改进了大表Join算法。主要工作如下:(1)本文通过分析和对比spark sql和Hbase的数据组织方式,提出了一种改进的数据组织框架。该框架首先改进了Parquet文件格式的读写接口,其次利用Hbase+Phoenix构建了二级索引,大幅提升了4G行业卡数据的读写和查询速度。(2)本文进一步研究了spark的内存模型和资源使用情况,通过性能监控获取集群底层各项参数,建立了内存监控模型对资源使用情况进行分级和预警。最后将预警结果通过观察者模型反馈给订阅者,订阅模块就可以根据它的反馈来动态调整数据流量。(3)本文基于改进的数据组织框架和监控模型对大表关联算法进行优化,提出了一种基于内存监控和分批处理的Join算法。该算法通过监控模型动态地控制数据流量和Join批次,并通过改进的数据组织方式加快数据读写和查询速度。实验表明该算法从一定程度上缓解了内存不足的问题,也降低了数据倾斜导致的负载不均衡影响,总体运行时间优于默认的Join算法。综上所述,spark sql处理结构化数据的性能受数据组织方式和内存模型的影响,具体表现为Join效率低下。本文首先改进了数据组织框架,然后建立了内存监控模型,最后优化了Join算法,平均处理时间缩短了31.49%。

关键词： spark sql 结构化数据 Parquet 内存监控 Join

来源：评论

学校读者我要写书评

暂无评论

面向容器云的spark sql性能优化研究与实现

面向容器云的Spark SQL性能优化研究与实现

引用

作者：张天星贵州大学

学位级别：硕士

云计算具备大规模数据存算能力,成为现代数字经济发展的基础。在云环境中如何高效的处理大规模数据仍是一个亟待解决的难题。基于CPU处理结构化数据的性能表现不佳,GPU的出现带来了新的优化思路。然而,现有的容器云平台在GPU的集成与调... 详细信息

云计算具备大规模数据存算能力,成为现代数字经济发展的基础。在云环境中如何高效的处理大规模数据仍是一个亟待解决的难题。基于CPU处理结构化数据的性能表现不佳,GPU的出现带来了新的优化思路。然而,现有的容器云平台在GPU的集成与调度方面尚待完善,难以通过GPU并行化算力加快数据处理的速度。此外,大数据计算框架spark在容器云中涉及大量配置参数,不合理的配置无法发挥其最佳性能。为解决上述问题,本文研究在容器云中利用GPU并行化算力加速spark sql处理结构化数据,优化spark sql性能,提升数据处理效率。本文具体工作如下: (1)为全面直观地了解spark任务的运行状态,设计一种多维度立体化的资源性能监控方案。该方案从计算节点、GPU资源和spark计算框架三个层面监控spark任务在容器云中的运行状态。其通过可视化的方式清晰地呈现任务在执行过程中各种资源的使用情况,为后续spark sql性能优化提供有力支持。 (2)为提高分布式spark节点的计算性能,设计一种GPU资源负载感知调度方案。该方案在容器云中引入GPU感知插件集成GPU算力。通过扩展GPU的预选策略筛选满足任务需求的节点,形成候选节点集合。通过扩展GPU的优选策略评估候选节点CPU、内存和GPU资源的负载情况,为任务选择最佳的调度节点。实验结果表明,该方案提升GPU资源的利用率和数据的处理速度。 (3)针对在容器云中spark GPU加速场景,设计一种自适应配置参数优化方案。该方案在容器云中收集任务执行的日志数据,从该数据中识别出显著影响性能的参数,并结合贝叶斯优化算法自动寻找最优的配置。通过缓存优化经验的方式重用历史经验,进而加快优化的过程。实验结果表明,该方案提高spark计算框架的性能,降低任务的执行时间。本文实现一个面向容器云的spark sql性能优化系统。根据上述设计的方案,本文采用分层设计的理念构建系统的整体架构。该架构以存算分离的方式处理大规模数据,提高系统的灵活度。实验结果表明,spark sql整体的处理效率提升49%～65%。

关键词： spark sql GPU并行化算力负载感知调度参数优化

来源：评论

学校读者我要写书评

暂无评论

基于spark sql的数据源连接器的设计与实现

基于Spark SQL的数据源连接器的设计与实现

引用

作者：陶昱正上海交通大学

学位级别：硕士

随着大数据时代的到来,用户对于海量数据计算和存储的需求不断提高。spark作为一个基于内存计算的分布式计算框架以其优异的性能在近年来得到了业界的广泛认可,而spark生态圈中的组件spark sql也成为了不少企业在面临海量数据分析处理... 详细信息

随着大数据时代的到来,用户对于海量数据计算和存储的需求不断提高。spark作为一个基于内存计算的分布式计算框架以其优异的性能在近年来得到了业界的广泛认可,而spark生态圈中的组件spark sql也成为了不少企业在面临海量数据分析处理问题时的落地解决方案。与此同时,海量数据的存储引擎也在迅猛的发展,支持不同业务场景需求的各类存储引擎纷纷涌现。这些海量数据处理技术的进步为大数据产业的发展提供了强有力的支持。企业的数据会分布在不同的存储引擎和系统中,若需要将这些数据接入计算引擎进行通用的统计分析通常会面临数据孤岛的问题。目前,通过构建一站式的大数据平台已经在一定程度上解决了数据孤岛问题,然而面对日新月异的存储引擎,如何方便快捷地完成计算引擎与不同存储引擎上数据源的对接,以及如何帮助计算引擎理解和适应存储引擎以提高数据的计算分析效率,仍是现今海量数据处理业务场景中需要解决的问题。针对上述问题,本文提出了一个基于spark sql的数据源连接器——Stargate,它一方面提供了一套面向不同存储引擎快速对接到spark sql计算引擎完成对数据源基本读写的框架,另一方面能够提取sql分析中的部分计算并下推到数据源,利用数据源存储引擎的特点来快速地完成一些计算以使整个计算分析过程更高效。本文基于spark sql设计并实现了数据源连接器Stargate,通过实验对Stargate的功能性和性能进行了测试。实验表明,Stargate能够很好地完成spark sql计算引擎与多种存储引擎的对接,并能帮助计算引擎理解和适应存储引擎,提高计算分析的效率。

关键词：大数据 Apache spark spark sql 数据源连接器

来源：评论

学校读者我要写书评

暂无评论

基于成本的spark sql优化

基于成本的Spark SQL优化

引用

作者：连欣重庆邮电大学

学位级别：硕士

大数据时代,挖掘海量信息中蕴含的价值,对海量信息进行快速处理成为各个行业的迫切需求。随着spark的广泛应用,spark sql作为一个基于spark的分布式查询组件,利用spark内存计算特性,进一步提高了海量数据检索性能,并在数据清洗、数据挖... 详细信息

大数据时代,挖掘海量信息中蕴含的价值,对海量信息进行快速处理成为各个行业的迫切需求。随着spark的广泛应用,spark sql作为一个基于spark的分布式查询组件,利用spark内存计算特性,进一步提高了海量数据检索性能,并在数据清洗、数据挖掘、日志分析等领域得到广泛应用。sql查询优化是spark sql的核心,Join操作作为sql中的基本算子,在分布式查询系统中,其实现方式与执行路径,决定计算资源、内存资源、网络和磁盘I/O资源的开销,它的优化执行是影响sql查询性能的关键。目前最新spark sql版本中实现了基于成本的优化策略与基于规则的优化策略,通过优化Join执行路径,提高查询效率。同时,还可以通过缓存策略,减少网络传输开销与磁盘I/O开销,提高sql执行速度。然而,spark sql成本优化策略没有充分考虑spark内存计算特性,且缓存策略单一。针对存在问题,研究spark sql优化策略,主要完成了如下工作:1.针对目前spark sql成本优化策略中没有充分考虑spark内存计算特性的问题,对spark sql中Join算子的不同实现方式,给出了一种综合时空复杂度和I/O开销的成本评估模型,该成本评估模型对spark sql执行过程中的内存使用行为和数据溢写行为进行成本分析。并提出一种物理计划生成策略和最优物理计划选择策略。通过与最新版本spark sql的成本模型进行实验对比,结果表明,论文提出的策略可以在提高sql查询效率的同时提高系统资源利用率。2.针对spark sql缓存策略中无法自动缓存有价值数据,从而导致缓存利用率不高的问题,根据spark sql中使用内存列式存储作为缓存的特性,对缓存机制中缓存读写行为进行成本分析,提出了一种基于成本的自动缓存策略。通过与默认缓存策略进行实验对比,结果表明,使用该策略在TPC-DS数据集下,可以有效识别具有缓存价值的数据表,提高sql查询性能和系统资源利用率。研究工作表明,结合spark sql内存计算特性,研究基于成本评估模型的查询优化策略,可以在提高系统资源利用率的同时有效提升spark sql查询性能。

关键词： spark sql 成本优化 Join算子物理计划自动缓存策略

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：