检索结果-内蒙古大学图书馆

作者：黄世玮国立台湾大学

学位级别：硕士

Apache spark在丛集系统中提供许多高速运算的模组，其中spark- sql负责分散式资料库高效率的查询等演算法。在分散式资料库，大多数程序都牵涉到分散式系统中不同节点间资料的交换这个成本高、耗时长的过程。洗牌杂凑加入查询是一个评... 详细信息

Apache spark在丛集系统中提供许多高速运算的模组，其中spark- sql负责分散式资料库高效率的查询等演算法。在分散式资料库，大多数程序都牵涉到分散式系统中不同节点间资料的交换这个成本高、耗时长的过程。洗牌杂凑加入查询是一个评估加入查询的有名演算法，但我们发现他在节点间造成不必要的资料交换，且有机会发生计算负担不平衡的状况。我们提出一个洗牌杂凑加入查询的优化版本来评估半加入查询，其名为RDTS(Reducing Data Transfer for Semijoin)。他不只减少了节点间不必要的资料交换，也确保了各节点的计算负担平衡。我们用Scala这个语言在spark上实作RDTS，且比较其与原本的差异。此外，我们的演算法能够轻易的延伸以评估复数半加入查询。

关键词：分散式资料库 Apache spark spark sql 半加入查询

来源：评论

学校读者我要写书评

暂无评论

Pyspark Cookbook 1

引用

丛书名： []

2018年

作者： Tomasz Drabas Denny Lee

ISBN: (数字)9781788834254

ISBN: (纸本)9781788835367

Combine the power of Apache spark and Python to build effective big data applications Key Features Perform effective data processing, machine learning, and analytics using Pyspark Overcome challenges in developing and deploying spark solutions using Python Explore recipes for efficiently combining Python and Apache spark to process data Book Description Apache spark is an open source framework for efficient cluster computing with a strong interface for data parallelism and fault tolerance. The Pyspark Cookbook presents effective and time-saving recipes for leveraging the power of Python and putting it to use in the spark ecosystem. You'll start by learning the Apache spark architecture and how to set up a Python environment for spark. You'll then get familiar with the modules available in Pyspark and start using them effortlessly. In addition to this, you'll discover how to abstract data with RDDs and DataFrames, and understand the streaming capabilities of Pyspark. You'll then move on to using ML and MLlib in order to solve any problems related to the machine learning capabilities of Pyspark and use GraphFrames to solve graph-processing problems. Finally, you will explore how to deploy your applications to the cloud using the spark-submit command. By the end of this book, you will be able to use the Python API for Apache spark to solve any problems associated with building data-intensive applications. What you will learn Configure a local instance of Pyspark in a virtual environment Install and configure Jupyter in local and multi-node environments Create DataFrames from JSON and a dictionary using *** Explore regression and clustering models available in the ML module Use DataFrames to transform data used for modeling Connect to PubNub and perform aggregations on streams Who this book is for The Pyspark Cookbook is for you if you are a Python developer looking for hands-on recipes for using the Apache spark 2.x ecosystem in the best possible way. A thoroug

关键词： Pyspark Big Data Python spark spark sql MLlib spark streaming RDD abstraction spark machine learning batch processing streaming open source data frame streaming

来源：评论

学校读者我要写书评

暂无评论

一种基于spark大数据处理平台的查询方法

引用

南京邮电大学学报（自然科学版） 2021年第4期41卷 82-90页

作者：张海峰魏可欣中通服咨询设计研究院有限公司江苏南京210019 南京大学商学院江苏南京210093 苏州大学政治与公共管理学院江苏苏州215123

spark sql在获取spark核心的计算结果后,需要进行一些格式转化和数据拷贝才能正式输出,将造成内存中相同或近似相同的数据有多个拷贝,浪费了内存资源,也降低了性能,直接影响了用户响应和结果存储容量,并且这种影响会随着输出结果的增大... 详细信息

spark sql在获取spark核心的计算结果后,需要进行一些格式转化和数据拷贝才能正式输出,将造成内存中相同或近似相同的数据有多个拷贝,浪费了内存资源,也降低了性能,直接影响了用户响应和结果存储容量,并且这种影响会随着输出结果的增大而增大。为此,文中提出了基于spark大数据处理平台的创新查询方法,以实现查询首结果立即输出,极大缩短客户响应时间。

关键词： spark sql 大数据查询首结果首结果立即返回

来源：评论

学校读者我要写书评

暂无评论

Query Execution Time Analysis Using Apache spark Framework for Big Data: A CRM Approach

引用

JOURNAL OF INFORMATION & KNOWLEDGE MANAGEMENT 2022年第4期21卷

作者： Yadav, Madan Lal Indian Inst Management Bodh Gaya Turi Khurd Bihar India

Customer Relationship Management (CRM) is a systematic way of working with current and prospective customers to manage long-term relationships and interactions between the company and customers. Recently, Big Data has become a buzzword. It consists of huge data repositories, having information collected from online and offline resources, and it is hard to process such datasets with traditional data processing tools and techniques. The presented research work tries to explore the potential of Big Data to create, optimise and transform an insightful customer relationship management system by analysing large amount of datasets for enhancing customer life cycle profitability. In this research work, a dataset, "Book Crossing" is used for Big Data processing and execution time analysis for simple and complex sql queries. This research tries to analyse the impact of data size on the query execution time for one of the majorly used Big Data frameworks, namely Apache spark. It is a recently developed in-memory Big Data processing framework with a spark sql module for efficient sql query execution. It has been found that Apache-spark gives better results with large size datasets compare to small size datasets and fares better as compared to Hadoop, one of the majorly used Big Data Frameworks (based on qualitative analysis).

关键词： Customer relationship management big data Apache spark spark sql recommendation system

来源：评论

学校读者我要写书评

暂无评论

基于梯度提升决策树组合模型的二手车金融用户画像系统

基于梯度提升决策树组合模型的二手车金融用户画像系统

引用

作者：潘浩楠中国科学院大学(中国科学院人工智能学院)

学位级别：硕士

中国线上二手车交易起步较晚,且国内信用体系尚待完善。目前国内二手车的金融用户筛选主要使用规则模型系统,通过人工拨打电话,近期浏览内容等较为初级的手段判断用户的金融意向高低。该模型系统覆盖面小,适用条件生硬,服务效率低下,不... 详细信息

中国线上二手车交易起步较晚,且国内信用体系尚待完善。目前国内二手车的金融用户筛选主要使用规则模型系统,通过人工拨打电话,近期浏览内容等较为初级的手段判断用户的金融意向高低。该模型系统覆盖面小,适用条件生硬,服务效率低下,不能适应越来越频繁的业务变化,因此需要一个更加完善,更加高效的金融用户画像系统。针对现状,本文采用模型结构简单,非线性效果优良,可解释性高的梯度提升决策树(Gradient Boosting Decision Tree,GBDT),以及逻辑简单,执行迅速的逻辑回归(Logistic Regression,LR)模型的组合模型。通过分析挖掘用户在平台近段时间的浏览日志数据,预测未来一周内用户金融成交的概率。更加高效,更加全面的服务二手车用户。本文完成的主要工作如下:(1)海量数据处理与效率优化:使用spark分布式集群进行数据处理,提升数据处理速度,避免本地内存占用。使用宽窄表转换,时间区间标志位,spark常驻内存策略提升处理性能;(2)不均衡数据处理:提出一种新的基于业务逻辑的样本扩充方法,对稀少正样本进行扩充。对负样本则采用随机降采样,均衡正负样本比例;(3)特征工程:使用时间窗口和时间加权处理,对特征进行升维。构建多维度用户金融特征,并统计用户在过去7天,每天看车价格区间的分布以及最近购车时间等特征;(4)建模:使用GBDT+LR模型进行预测,使用GBDT进行初步建模,将连续数值离散化,并进行编码,后续送入LR模型中,进行最终的预测。通过与现有线上模型系统进行A/B测试(A/B测试即使用相同的环境,对比几个模型的实际表现,选取最优的模型),对比三个关键指标,判定优劣。结果证明,本文在精度上更加精确,同时在覆盖范围上更加广泛,执行速度更快,效果较线上模型系统有较大的提升。在二手车金融用户甄别方面具有较高的实用价值。

关键词：不均衡数据处理 spark sql 用户画像机器学习效率优化

来源：评论

学校读者我要写书评

暂无评论

spark数据倾斜场景解决方案的研究与应用

Spark数据倾斜场景解决方案的研究与应用

引用

作者：蒋卓君西安电子科技大学

学位级别：硕士

数据倾斜指大数据平台下经常出现的某一个分区数据量远大于其他分区数据量,导致分配不均的情况。如果分配给每个节点的数据不均匀,那么执行过程中会出现某些task的执行时间远大于其他task的现象,不仅严重影响程序执行的性能,而且过多占... 详细信息

数据倾斜指大数据平台下经常出现的某一个分区数据量远大于其他分区数据量,导致分配不均的情况。如果分配给每个节点的数据不均匀,那么执行过程中会出现某些task的执行时间远大于其他task的现象,不仅严重影响程序执行的性能,而且过多占用资源可能会使系统崩溃。论文选题来源于企业实际开发特性,主要针对spark生产环境中出现的数据倾斜现象进行研究。此现象普遍发生于spark的实时处理和两表连接场景。其中,对于spark实时处理场景,消息队列Kafka分区数据的随机分配和某个Executor或者同一本地化级别上待执行任务的堆积都很容易造成倾斜现象;而在spark两表连接的过程中也暴露出几个容易导致倾斜的问题:Shuffle过程中Hash分配的弊端、物理算子树采用统一的Reducer数目引发的资源利用率低和错误估计数据量导致选择带Shuffle操作的执行方式。因此,上述两种场景的倾斜问题已经成为了spark分布式计算和性能提升的瓶颈。本文结合spark数据倾斜场景的业务需求,并根据当前倾斜问题解决方案的国内外现状,通过对spark Streaming和spark sql相关源码的研究与分析,设计实现了一个具有普遍适用性的解决方案。具体工作如下:1)针对Kafka不同版本的本地化差异,通过现有的取模运算实现有次序的动态绑定和兼顾本地化的动态绑定来改变数据随机分配的方式,并基于动态绑定方式,借助spark的反压机制控制执行的消费速率以解决实时处理场景的数据堆积问题;2)内核代码引入自定义的本地化率计算公式让spark实时处理系统自行判断降级操作,减少用户自行设置本地化级别等待时间带来的误差;3)通过自定义的倾斜度计算公式和重度倾斜分区切分来确定Reducer数目,并在sql语句执行过程中根据Stage输出数据量动态选择合适的执行方式,以此来达到最佳的执行计划;4)采取Map端数据部分读取多次join的方式,并提出基于MDP的分区重组算法实现Reducer端分区数据的最优组合以解决两表连接场景Hash分配弊端带来的性能问题;5)对两种场景的功能性需求和非功能性需求进行全方位测试并对比分析,证明本文提出的解决方案确实能提高spark在数据倾斜场景下处理数据的吞吐量和性能。当前数据倾斜场景解决方案代码以非侵入式的思想合入到公司自研发产品的内核代码,为防止对原有代码产生影响,只有相关配置项开启时优化方案才能生效,基本解决了日常运维人员发现的数据倾斜问题,并应用于许多使用此产品的业务场景,但目前随着数据量的不断增加和涵盖场景的多样性,可能未考虑到一些特殊的数据倾斜场景,需要不断寻求改进。

关键词：本地化 spark sql 数据倾斜 MDP 动态绑定

来源：评论

学校读者我要写书评

暂无评论

内存大数据查询引擎配置低开销优化关键技术

内存大数据查询引擎配置低开销优化关键技术

引用

作者：辛锦瀚中国科学院大学(中国科学院深圳先进技术研究院)

学位级别：硕士

spark sql作为内存大数据查询引擎,已经被业界广泛应用,但对其性能进行调优始终是一项必要且具有挑战性的工作。最新的研究试图利用机器学习方法来解决这个问题。然而,现有的机器学习方法存在两个缺陷。首先,它需要花费大量时间收集训... 详细信息

spark sql作为内存大数据查询引擎,已经被业界广泛应用,但对其性能进行调优始终是一项必要且具有挑战性的工作。最新的研究试图利用机器学习方法来解决这个问题。然而,现有的机器学习方法存在两个缺陷。首先,它需要花费大量时间收集训练样本,导致时间开销过高。其次,对一个应用程序的一个输入数据集的最佳配置对同一程序的另一个输入数据集可能不是最佳的,从而需重新调优。为了解决这些问题,本文提出了一种新颖的方法来在线自动调优spark sql分析查询应用程序(query)。该方法主要创新了三个关键技术。第一个技术名为查询配置参数敏感性分析(Query Configuration Sensitivity Analysis,QCSA)。在收集训练样本时,通过查询配置参数敏感性分析,识别出对配置参数变化不敏感的查询,从而不实际运行这些查询,而只运行那些对配置参数变化敏感的查询。第二个技术称为数据集大小感知的高斯过程(Datasize-Aware Gaussian Process,DAGP),它可以自动适应数据集大小变化,结合配置参数进行查询性能建模。第三个技术称为重要配置参数识别技术(Identifies Important Configuration Parameters,IICP),该技术识别出对性能重要的配置参数,并且让优化方法只对重要参数进行调优。因此,本文所提出的方法可以以较低的开销调优spark sql应用程序的配置,并适应不同的输入数据集大小变化。基于TPC-DS,TPC-H和Hi Bench测试基准,我们分别采用4台高性能ARM服务器集群与8台高性能X86服务器集群对本文提出的方法进行了实验验证。实验结果表明,相较于当前能查到文献的世界最先进的自动调优解决方案,在ARM和X86集群中,分别缩短达到最优性能所需的时间达到9.7倍和9.2倍,分别提高性能达到2.4倍和2.8倍。此外,本文提出的方法能够自动适应输入数据集大小变化的场景。

关键词：大数据内存大数据分析引擎 spark spark sql 参数自动调优

来源：评论

学校读者我要写书评

暂无评论

基于spark的电信4G网大数据网优平台的设计与实现

基于SPARK的电信4G网大数据网优平台的设计与实现

引用

作者：姚明华南理工大学

学位级别：硕士

当前,我们正处在大数据的信息时代,信息的爆炸式增长使得传统的技术架构无法满足海量数据的处理需求,大数据平台的研究与发展在这种环境下正当时。spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台,spark基于RDD成功... 详细信息

当前,我们正处在大数据的信息时代,信息的爆炸式增长使得传统的技术架构无法满足海量数据的处理需求,大数据平台的研究与发展在这种环境下正当时。spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台,spark基于RDD成功地构建起了大数据处理的一体化解决方案,将MapReduce、Streaming、sql、Machine Learning等大数据计算模型统一到一个技术堆栈,开发者使用一致的API操作spark中的所有功能,使得spark加速成为大数据处理中心首选的和唯一的计算平台。随着相关技术的逐渐成熟,很多公司都开始研究和学习spark技术,以满足自身业务的需求和提高产品的品质。在此背景下,公司提出基于spark系统在电信4G移动通信网络优化领域开展大数据网络优化平台的应用开发实践,传统的数据解析和分析方法和手段已经满足不了移动通信大数据时代对数据处理和分析的时效要求。该平台能够兼容Hadoop集群,同时高效的分析和处理海量数据,较传统方式性能提升有10倍以上。本人主要负责两个核心模块:数据解析模块和数据查询分析模块的设计与开发,包括设计数据解析模块的流程、编码实现数据解析、调优数据解析的效率、设计数据查询和分析的表字段、设计业务功能的sparksql的查询语句、优化查询性能。本论文主要介绍了本人利用spark技术在移动通信运营商的LTE网络通过处理海量MR测量数据辅助进行大数据网优的平台2个主要核心功能模块的建设。首先介绍了平台建设的背景和平台建设相关的技术,然后从功能性和非功能性需求两个方面分析了平台的功能需求。再次,详细介绍了2个核心功能模块:数据解析和数据查询分析模块的流程设计和代码实现、性能调优以及结果输出。最后,介绍了系统部署的过程以及与传统的方法运行的性能指标对比情况,从而验证了spark在大数据处理上的出色表现,也证明本论文工作的有效性和实用性。该平台目前已经投入到公司日常的大数据处理工作当中,每月例行处理某省移动公司17个地市高达2.3T(压缩后)的网络优化相关数据。运行结果表明,平台的数据解析和查询分析模块能够正常运行而且性能表现卓越,可以满足某省一月完成一次全省规模数据的解析和指标输出要求,达到了预期目标。

关键词： spark XML解析大数据数据处理资源调优开发调优 spark sql

来源：评论

学校读者我要写书评

暂无评论

云产品数据多维分析系统的设计与实现

云产品数据多维分析系统的设计与实现

引用

作者：王真真北京交通大学

学位级别：硕士

近年来随着云计算行业的快速发展,以云服务为主营业务的互联网公司也得到了快速的成长。目前笔者所在公司已有近13条云产品业务线,而各业务线每天会产生庞大且分散的业务数据,其中日志数据已达到了 PB级别。如何对各云产品进行统一的业... 详细信息

近年来随着云计算行业的快速发展,以云服务为主营业务的互联网公司也得到了快速的成长。目前笔者所在公司已有近13条云产品业务线,而各业务线每天会产生庞大且分散的业务数据,其中日志数据已达到了 PB级别。如何对各云产品进行统一的业务分析,及时发现各产品线运营中存在的问题和预测市场需求的变化趋势,是公司目前所面临的难题。针对这一问题,本文旨在接入各产品线业务数据搭建一个统一的、快速响应的云产品数据报表平台,提供多维度深层次的报表查询、数据统计、数据分析、数据预测等功能。在云产品数据多维分析系统的构建过程中,首先,笔者完成了数据主题与数据维度的统计分析,并且参与了多维分析系统的界面原型设计。其次,笔者参与了联机分析处理OLAP(On-line Analytical Processing)引擎调研和日志处理方案的设计工作。然后,在系统设计与实现阶段,笔者独立设计实现了多维分析子系统、Trainer 子系统和日志转 ORC(Optimized Row Column File)子系统中的 CDN(Content Delivery Network)点播日志处理与视频直播日志处理,并完成了数据模型与Cube的创建工作。在测试阶段,笔者独立完成了所负责相关子系统的功能测试。本文所设计的数据多维分析系统基于Apache Kylin的OLAP引擎进行构建,采用预计算的方式预先计算Cube立方体从而实现高响应的数据多维分析。多维分析子系统根据复杂的业务逻辑动态的构建sql,并对查询后的数据进一步加工处理从而更有效的帮助决策。Trainer子系统负责数据的定期同步以及Cube的自动构建,为多维分析子系统提供数据支撑,并保证数据的一致性。日志转ORC子系统负责对各产品线的日志数据进行ETL(Extract-Transform-Load)处理,该子系统采用sparksql对日志数据进行并行计算,极大提高了处理速度,并采用更加高效的压缩格式ORC来存储处理后的数据,提高了后续的数据处理性能。目前,该云产品数据多维分析系统完成了一期的开发与测试工作,并且正处于试运行阶段,各系统的功能运行稳定,达到了预期目标。

关键词：多维分析联机分析处理云产品 Apache Kylin spark sql

来源：评论

学校读者我要写书评

暂无评论

基于大数据的船舶驾驶行为评估

基于大数据的船舶驾驶行为评估

引用

作者：孙硕大连海事大学

学位级别：硕士

随着海事管理和航道管理的数字化推进,目前已经积累了海量的海事和航道相关数据。如何应用大数据技术处理和分析这些海量数据,保障船舶在航道中的航行安全和提升海事监管和航道维护的效率,是目前航海领域的研究热点。本文针对船舶在航... 详细信息

随着海事管理和航道管理的数字化推进,目前已经积累了海量的海事和航道相关数据。如何应用大数据技术处理和分析这些海量数据,保障船舶在航道中的航行安全和提升海事监管和航道维护的效率,是目前航海领域的研究热点。本文针对船舶在航道中航行的安全性问题,提出了一种新的基于大数据的船舶驾驶行为评估方法。利用基于AIS大数据时空管道分析的评价指标定量计算,结合模糊综合评价模型,对船舶在一个航程中的安全性进行打分评判,可为船舶驾驶员管理和船舶交通管理提供有价值的参考。本文完成的主要研究工作包括:(1)基于大数据的船舶驾驶行为评估系统架构利用Hadoop大数据生态圈技术构建船舶驾驶行为评估系统的架构。首先,利用Geo Mesa作为时空数据中间件,对船舶AIS数据构建时空索引,实现AIS数据在Hbase分布式数据库中存储。然后,利用spark连接Hbase对AIS时空大数据进行分析,计算各种驾驶行为评估指标;通过Geo Server地图服务器结合Geo Mesa组件对AIS时空大数据进行可视化。(2)基于Geo Mesa的船舶AIS时空管道构建为了对一艘船舶进行驾驶行为评估,需要获取船舶在航程中每个时刻的周围船舶动态。首先,基于spark sql技术,从AIS大数据中快速地将船舶在航程中所有周围船舶动态按时间顺序提取出来,形成时空管道数据,用于后面对评价指标的计算和定量分析,为驾驶行为评估奠定数据基础。其次,基于Geo Server Web Process Service和Geo Mesa Tube Select技术构建时空管道数据的可视化展示,用于复现船舶航行过程中的周围船舶动态。(3)基于熵值法的驾驶行为模糊综合评判模型选取船舶变速异常、船舶变向异常、穿越航道中心线、偏离航道、碰撞危险度和环境压力等6项参数,作为船舶驾驶行为评价指标。根据AIS时空管道技术对各个评价指标的计算和统计结果,采用熵值法对各评价指标所占权重进行动态分配优化并结合模糊综合评价三要素对船舶驾驶行为进行打分和优劣评判。

关键词：船舶驾驶行为评估 GeoMesa spark sql GeoServer 船舶航行安全

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：