检索结果-内蒙古大学图书馆

作者：赵彩利河南科技大学

学位级别：硕士

Spark作为开源的大数据处理平台,其核心是弹性分布式数据集RDD(Resilient Distributed Datasets),通过将RDD以分布式的形式存储在集群的内存中,以提高应用执行效率。随着大数据时代的发展,数据呈现爆发式增长,越来越多的企业采用Spark... 详细信息

Spark作为开源的大数据处理平台,其核心是弹性分布式数据集RDD(Resilient Distributed Datasets),通过将RDD以分布式的形式存储在集群的内存中,以提高应用执行效率。随着大数据时代的发展,数据呈现爆发式增长,越来越多的企业采用Spark来提供数据处理服务,但在实际的应用中发现,当内存大小相对于数据的规模出现瓶颈时,Spark运行的稳定性及任务执行效率要远低于Map/Reduce,甚至导致Spark崩溃,这与Spark本身的内存数据管理有密切的关系。因此如何在内存缓存数据管理技术方面提高Spark集群的内存资源利用率和任务执行效率,具有一定的研究价值和现实意义。Spark内存数据管理未提供缓存对象的自动选择机制,且在内存不足时,采用LRU进行缓存替换,未考虑Spark数据特征,影响任务执行效率;Spark内存数据管理只提供在单应用中共享缓存数据,造成多应用缓存数据冗余。针对以上问题,本文主要从缓存对象的选择、替换及缓存数据共享等方面对Spark集群中内存缓存数据的管理技术进行研究,主要贡献包括:1.针对Spark缓存对象选择不确定性及替换对象选择不合理性导致增加任务执行时间的问题,提出了面向RDD内存数据的自适应缓存机制对RDD的缓存进行优化。该机制优先选取重用度高或计算代价高的RDD作为缓存对象;用最小权重替换算法替代LRU,考虑RDD分区的并行计算特征,在权重计算中加入了完整引用计数影响因子,采用线性加权累加的方法构建权重模型,使RDD分区权重值更加准确,以提高缓存替换对象选择的精准度;根据任务执行情况动态调整相关因子值,使缓存替换能够适应任务执行过程的变化。通过对照实验证明,此机制能够有效减少任务执行时间,提高Spark计算性能。2.针对不同应用之间存在的相同数据被缓存,造成缓存数据冗余导致内存资源浪费的问题,在现有研究的基础上利用多应用共享内存数据空间进行改进,提出了一种面向RDD内存数据的共享机制。首先采用主从式内存数据管理架构对集群中缓存数据进行统一管理,为数据共享提供信息支持;通过内存数据共享系统识别不同应用中执行相同任务的RDD,并根据数据缓存情况对DAG进行重写;为了避免重写后的DAG在等待执行过程中,所需的缓存数据由于内存不足而淘汰,考虑数据在多应用中的引用情况,并采用熵值法对最小权重替换算法进行改进,以保证共享数据的完整性。实验结果表明该机制能够提高集群的内存资源利用率,有效减少作业的执行时间。从缓存及替换对象选择的准确度、内存资源利用率及作业执行时间等方面可以看出,本文研究工作对于Spark大数据处理具有重要意义。

关键词： Spark 并行计算弹性分布式数据集自适应缓存机制数据共享

来源：评论

学校读者我要写书评

暂无评论

基于任务结构优化的Spark缓存策略研究

基于任务结构优化的Spark缓存策略研究

引用

作者：沈斌强哈尔滨工业大学

学位级别：硕士

大数据计算框架Spark运用内存空间极大提升了任务的执行效率,但由于内存空间的局限性,Spark任务常常因为内存瓶颈导致执行效率低下,甚至任务失败,这与框架本身的缺陷和RDD(Resilient Distributed Datasets)的缓存策略密切相关。Spark自... 详细信息

大数据计算框架Spark运用内存空间极大提升了任务的执行效率,但由于内存空间的局限性,Spark任务常常因为内存瓶颈导致执行效率低下,甚至任务失败,这与框架本身的缺陷和RDD(Resilient Distributed Datasets)的缓存策略密切相关。Spark自诞生至今,一直采用LRU(Least Recently Used)作为缓存替换算法,但由于Spark的缓存调度器无法准确预测整个任务数据的使用情况,导致部分情况下LRU算法效果欠佳。为了减小任务执行时间,提升内存利用率,通过解析Spark的任务结构,对其进行一定的优化,并获取整个任务过程中数据和内存的使用情况,通过分析结果优化现有的缓存策略,这是本文研究的重点。本文首先对Spark现有的缓存机制进行分析,比较不同缓存方式对于任务性能的影响,通过实际例子证明现有的缓存策略还有较大的优化空间。接着提出了任务结构分析和任务结构优化的方法,对于任务结构分析,通过动态分析的方法提取出Spark任务的关键信息,根据RDD之间的依赖关系解析出整个任务的依赖关系图,同时解析出任务运行过程中数据和内存的使用情况;对于任务结构优化,在获取了Spark的任务信息后,通过调整Stage的位置使得任务计算过程中同一RDD的使用更加集中,减少了内存替换的概率,提高了整个任务的执行效率。在分析和优化任务结构的基础上,提出了RDD权重的概念,综合多种影响RDD使用情况的因素,包括使用次数、大小、跨度、分区与核数比例、计算代价等,建立了合理的RDD权重模型。基于RDD权重模型,本文提出了一种新的缓存替换策略,RWR(RDD Weight Replace)缓存替换策略,确保内存替换过程中相对更有价值的数据能够缓存至内存中,用于提高缓存命中率和内存利用率,减少因为内存瓶颈造成的计算错误,在一定程度上提高了Spark框架的容错性能。最后通过对比实验,结合多种负载用例,通过运行单个任务、调整集群配置、混合多种任务等方式,对默认未修改的Spark和优化后的Spark进行实验对比,实验结果表明,本文提出的任务结构优化策略和缓存替换策略能够有效提高任务执行效率。

关键词： Spark 任务结构优化缓存替换弹性分布式数据集

来源：评论

学校读者我要写书评

暂无评论

分布式流处理的铁道供电监控大数据集群容错技术研究

分布式流处理的铁道供电监控大数据集群容错技术研究

引用

作者：彭翔华东交通大学

学位级别：硕士

随着现在电力系统容量与规模不断增加大,信息流与能量流紧密交互,构成了智能调度监控的基础,铁道供电系统作为一种特殊的工业供配电系统,具有运行参数波动范围广、量测点分布集中、监测信息海量化明显、监测数据精度要求高等特点,对调... 详细信息

随着现在电力系统容量与规模不断增加大,信息流与能量流紧密交互,构成了智能调度监控的基础,铁道供电系统作为一种特殊的工业供配电系统,具有运行参数波动范围广、量测点分布集中、监测信息海量化明显、监测数据精度要求高等特点,对调度监控运行稳定性与容错性要求更高,而为了加强调度监控系统的交互协调能力,多种新型智能监测设备投入应用,使得监测点数量剧增,数据量呈几何倍数增长且结构更加多样复杂。典型的如某地区同步相量监测系统100个相位测量装置一天收集62亿个数据点,数据量约为60 GB,如按1000个监测装置计算,每天收集的数据点将达到415亿个,数据量达到402 GB,对调度监控系统的数据吞吐量与运行稳定性提出了严峻挑战。为了满足各种应用场合下大规模数据处理方面的需求,铁道供电监控大数据技术如批处理的Hadoop计算平台、流处理的Storm计算框架等技术在监测信息处理方面崭露头角,但铁道供电系统具有供电负荷变化频繁、电力监测数据波动大等特点,若调度监控系统容错性不足,当发生监测数据处理延迟或丢失等突发状况时,可能会引起监控报警信息迟报、漏报甚至误报,严重时导致关键故障决策判断失误,直接威胁铁道电网运行安全,因此,亟需开展相关铁道供电监控大数据容错处理技术的研究。结合铁道供电监控大数据的现状,学术界在分布式容错领域引入记录级容错技术,与需要付出高昂资源代价的检查点机制不同,记录级容错技术能在故障发生后,通过历史操作记录文件来重建所有故障中丢失的分区,能有效减少额外资源开销,其中弹性分布式数据集容错机制不仅具有一般记录级容错的优点,对数据并行类应用的适应性与容错性更好,为调度监控系统海量化监测数据的高效可靠处理指明了一种新的解决思路。本文结合实际工程应用中的监测大数据处理要求,搭建基于Spark的微批处理计算平台和基于Storm的流处理计算框架,并分别实现CLM血统链标记容错方法与实时流处理的分布式容错。以铁道供电调度监控系统为研究对象,进行集群处理性能与容错性能研究,实验结果表明:在应对突发数据节点故障时基于Spark的CLM容错方法不仅可降低集群计算节点的CPU平均占用率、网络IO消耗和磁盘占用率,还可以减少迭代运算的计算耗时;基于Storm的流处理集群调优后具有更好的事务处理性能与稳定性,验证了分布式数据锁调优与安全队列模型参数调优的有效性,研究结果对调度监控系统海量监测数据的容错处理具有重要的理论实践价值。

关键词：铁道供电系统调度监控大数据分布式计算 Spark微批处理弹性分布式数据集 Storm流处理集群容错技术

来源：评论

学校读者我要写书评

暂无评论

风电机组故障预警并行化数据处理技术研究

风电机组故障预警并行化数据处理技术研究

引用

作者：江聪华北电力大学

学位级别：硕士

风电机组机械旋转设备有着复杂的周边环境以及随机性较强、波动性较大、稳定性较差的风力资源,使得风电机组故障预警变得极为重要。风电机组故障预警可以有效地将事后维修变为维修预防,在提高配件利用率和设备维修效率的同时,也使得重... 详细信息

风电机组机械旋转设备有着复杂的周边环境以及随机性较强、波动性较大、稳定性较差的风力资源,使得风电机组故障预警变得极为重要。风电机组故障预警可以有效地将事后维修变为维修预防,在提高配件利用率和设备维修效率的同时,也使得重大故障的发生率大大降低,保护风场的人力、物力、财力的安全。传统的风电机组的故障预警模型多为单机环境,无法满足海量数据的产生,大数据处理技术的产生解决了这一问题。该课题建立了Spark平台,将SCADA数据作为实验数据进行研究,实现了基于Spark平台的风电机组的故障数据的预警分析和并行化处理研究。基于Spark平台实现风电机组故障预警模型的并行化处理。引入核极限学习机算法,构建核极限学习机的预警算法基于Spark框架的并行化实现方案,包括设计模型和预警测试。首先深入学习极限学习机算法,引入核函数方法,利用Spark平台下的弹性分布式数据集RDD对数据集进行分块存储,各分学习机模型并行训练,最终合成整个预警模型,完成了风电机组故障预警的并行化过程,大大提高了故障数据批处理的效率。引入鲸鱼优化算法,基于并行核极限学习机预警模型,结合改进鲸鱼优化算法,实现在Spark平台下的一种LPP-MAWOA-KELM混合故障预警模型,包括建立模型和预警测试。首先,采用保局投影算法对机组状态参数进行特征提取后,然后使用改进鲸鱼算法对核极限学习机进行优化,以及建立预警模型,最后实现Spark平台的并行化操作。仿真实验表明,该算法至少能提前3天预警潜在故障;将其与遗传算法、粒子群算法、鲸鱼算法优化参数建立的核极限学习机预警模型进行对比,得到模型在故障预警方面明显优于其他选定模型,具有较高的精度和稳定性;对比单机环境和并行集群下的数据处理,并行化大大提高了模型的效率。引入蚁狮优化算法,基于并行核极限学习机预警模型,结合改进蚁狮优化算法,实现在Spark平台下的一种LPP-CALO-WKELM混合故障预警模型,包括建立模型和预警测试。先采用保局投影算法提取SCADA数据特征向量;其次,CALO算法采用柯西变异算子对蚁狮优化算法改进,提升全局寻优能力;最后,运用CALO算法对小波核极限学习机的参数进行优化,提高算法的预警精度和收敛速度。为验证设计的预警模型的有效性,采用西北某风力发电场实测风机设备运行数据进行仿真实验验证,仿真结果表明,LPP-CALO-WKELM预警模型能有效预警齿轮箱的不同故障,能够满足齿轮箱故障预警需求。

关键词： Spark计算框架鲸鱼优化算法核极限学习机机弹性分布式数据集并行分析故障预警

来源：评论

学校读者我要写书评

暂无评论

基于Spark的网络日志分析系统的设计与实现

基于Spark的网络日志分析系统的设计与实现

引用

作者：刘季函(Liu,Chi Han) 南京大学

学位级别：硕士

目前互联网络的应用已经深入到企业办公系统中,企业业务时常需要依赖互联网来达成。通过网络,信息传播可以大幅降低工作成本并能极为明显的提高办公效能。但是随着网络给员工作事务带来便利,企业员工时常在上班时间访问-些与工作无关的... 详细信息

目前互联网络的应用已经深入到企业办公系统中,企业业务时常需要依赖互联网来达成。通过网络,信息传播可以大幅降低工作成本并能极为明显的提高办公效能。但是随着网络给员工作事务带来便利,企业员工时常在上班时间访问-些与工作无关的网站,给企业不论是业务还是网络环境皆带来了不良的影响。因此,企业需要针对用户网络访问行为的审计系统,透过网络日志分析系统去了解用户上网行为、趋向。日志中包含了大量人们感兴趣的信息,为系统的运行和维护提供了丰富的信息,同时也记载着用户访问各种网页的数据,其通过文本的形式将系统产生的行为准确规范得记录存储。随着互联网企业的壮大以及应用程序规模的扩大,各种日志信息同时也呈数量级的增长,一般使用单台机器处理的日志分析系统早已完全无法达到目前企业日志分析的需求,因此海量数据处理集群就成为日志分析的理想平台。最初的大数据计算处理框架是Google在2003-2006年提出的,随后一个相似的开源大数据计算框架Hadoop就这样诞生了,作为一个分布式计算框架,在当时其在海量数据处理效能卓越,曾经在互联网企业掀起一波巨浪。但是单纯使用Hadoop框架仍然有很多限制,它并不能很好的支持实时分析以及多次迭代的计算场景,因此许多企业在2009年后陆续提出改良的计算框架,如Dremel、Spark等。基于以上现状,通过对大量文献的阅读和参考,以及常见的企业对于用户行为观察了解的需求,本文设计了一个基于Spark的海量日志数据分析平台。平台使用Squid服务器中的***,并且设计了日志采集、逻辑处理、网页展示、任务管理等四个模块。日志采集模块实现了数据的收集和导入；逻辑处理模块实现了数据分析处理的过程；网页展示模块实现了一个客户端供用户操作及处理结果的展示；任务管理模块实现了集群的监控和管理。相较于Hadoop, Spark通过内存中运算能带来大幅度性能的改善。

关键词： Spark框架 Shark框架日志分析弹性分布式数据集

来源：评论

学校读者我要写书评

暂无评论

电力云平台内存集群计算研究

电力云平台内存集群计算研究

引用

作者：李江曼华北电力大学

学位级别：硕士

随着智能电网与能源互联网的发展建设,电力系统规模不断扩大,电力数据以惊人的速度、多样化结构迅猛增长,这些复杂的数据来源于智能电表、配电自动化、数字保护装置等,以及在智能电网实施过程中产生的相关数据。面对如此庞大、多样化的... 详细信息

随着智能电网与能源互联网的发展建设,电力系统规模不断扩大,电力数据以惊人的速度、多样化结构迅猛增长,这些复杂的数据来源于智能电表、配电自动化、数字保护装置等,以及在智能电网实施过程中产生的相关数据。面对如此庞大、多样化的数据,云计算与大数据处理等技术为电力大数据分析提供了一个全新的技术手段,电力云平台的研究越来越热,但不能满足电力系统高计算性能的需求。本文以电力大数据为研究背景,分析了几种大数据处理技术的优缺点,其中Hadoop是当前研究大数据的热点技术,在大数据批处理等方面效率较高,然而,由于使用MapReduce技术进行数据处理时存在大量的数据传输和读/写延迟,难以满足数据高计算性能方面的需求。Spark是基于内存的集群技术,适合计算密集型的迭代计算,计算速度快。针对电力系统中高计算性能的需求,将内存集群技术引入其中,设计一种电力系统分布式内存计算框架,将智能电子设备、智能电表与相量测量单元采集的数据存储在分布式文件系统中,使用内存计算框架Spark对其进行分析计算,并引入分布式内存文件系统以减少磁盘访问时间。本文分析了潮流计算经典算法和智能算法的特点,从应用的广泛性、稳定性和收敛性考虑,本文使用牛顿-拉夫逊法进行潮流计算。通过研究潮流计算的牛顿-拉夫逊法,提出一种基于弹性分布式数据集(RDD)和有向无环图(DAG)优化的潮流分析方法。该方法通过将潮流计算过程中的数据保存在RDD中,以读取内存的速度读取RDD中的数据,减少数据读/写时间。同时,对潮流计算步骤进行DAG优化,使窄依赖步骤在相同节点进行,并使宽依赖步骤并行执行,能有效减少潮流计算过程中数据传输时间和程序运行时间。最后搭建了Spark On Yarn的实验环境,以Java编程语言实现了基于Mapreduce的牛顿-拉夫逊法潮流计算,以Scala编程语言实现了Spark模式(NBRD法)和单机模式下的潮流计算。以IEEE标准测试数据为基础,构建并模拟大规模数据集,从测试算例规模、潮流计算时间加速比、Spark集群规模三个方面进行多次潮流计算实验。测试结果表明,潮流计算的迭代次数稳定,结果准确,当算例与集群规模较小时,本方法优势并未体现,但随着算例与集群规模的扩大,计算时间减少,加速比增加,并且性能明显优于单机与MapReduce计算模式。

关键词：电力云平台 Map Reduce 内存集群计算潮流计算弹性分布式数据集

来源：评论

学校读者我要写书评

暂无评论

大数据处理平台比较与分析

引用

微型机与应用 2015年第11期34卷 7-9,17页

作者：何海林皮建勇贵州大学计算机科学与信息学院贵州贵阳550025 贵州大学云计算与物联网研究中心贵州贵阳550025

虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念... 详细信息

虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念与设计思想,然后介绍了Spark的基本概念与思想,并且着重介绍了弹性分布式数据集RDD,并通过实验证明和分析对比了Hadoop与Spark。

关键词： Hadoop Map Reduce HDFS Spark 弹性分布式数据集

来源：评论

学校读者我要写书评

暂无评论

基于Spark的通用后缀树并行构造算法

引用

福建电脑 2018年第5期34卷 4-7页

作者：高可攀周经亚苏州大学计算机科学与技术学院江苏苏州215006

通用后缀树因其优良的结构特征被广泛应用于序列匹配、最长公共子序列查找等场合。在大数据时代,待处理序列的规模往往十分庞大,这给通用后缀树的构造带来巨大挑战。为应对这一挑战,本文提出一种并行分布式的通用后缀树构造算法。该算... 详细信息

通用后缀树因其优良的结构特征被广泛应用于序列匹配、最长公共子序列查找等场合。在大数据时代,待处理序列的规模往往十分庞大,这给通用后缀树的构造带来巨大挑战。为应对这一挑战,本文提出一种并行分布式的通用后缀树构造算法。该算法采用子树划分与合并的思想,将构造过程分解为多个子任务并行执行,算法基于Spark平台设计实现,字符序列以弹性分布式数据集(RDD)形式存储,任务在RDD上分布式执行。基于真实数据集的实验表明,对数十亿字符序列构造通用后缀树,其构造过程可在7分钟内完成,由此可见,本文所提算法可高效解决大规模通用后缀树构造问题。

关键词：通用后缀树 Spark 弹性分布式数据集子树划分子树合并构造算法

来源：评论

学校读者我要写书评

暂无评论

Spark大数据计算平台

引用

电子世界 2018年第15期 82-82,84页

作者：姜学军武枫黄海新沈阳理工大学信息科学与工程学院沈阳理工大学自动化与电气工程学院

随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程... 详细信息

随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程模型不仅操作单一,抽象层次较低难以上手,而且延时高,难以支持交互式数据处理和实时数据处理,加之其中间结果需存入HDFS对于迭代数据处理性能较差。Spark作为一个新兴的大数据梳理的引擎,除了提供了包括Map Reduce在内的几十个算子,还提供了一个集群的分布式内存抽象,避免频繁使用IO操作并大大提高迭代速度。同时在现实世界大数据应用复杂多样的背景下,Spark丰富的生态圈使得Spark可以轻易的适用于各种场景。

关键词：大数据 Spark 弹性分布式数据集 Spark生态圈

来源：评论

学校读者我要写书评

暂无评论

Apache Spark技术研究与应用前景分析

引用

电信技术 2016年第9期 67-68,71页

作者：李玮中国移动通信集团设计院有限公司

介绍Spark的关键技术——弹性分布式数据集及其主要的体系架构,总结Spark的应用场景,简要分析Spark未来发展以及它与Hadoop之间的关系。

关键词：分布式计算 MapReduce Spark 弹性分布式数据集

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：