检索结果-内蒙古大学图书馆

34th International Conference on Scientific and Statistical Database Management (SSDBM)

作者： Henneberg, Justus Schuhknecht, Felix Reutter, Philipp Brast, Nils Spichtinger, Peter Johannes Gutenberg Univ Mainz Mainz Germany

ISBN: (纸本)9781450396677

Research in atmospheric physics, meteorology, and weather prediction requires the processing of very large multi-dimensional observational or modeled datasets on a daily basis. One of the numerous existing array engines looks like the natural choice for this task. Interestingly, the actual data analysis situation in the community looks surprisingly different: Researchers often process their data manually using hand-written Python or Julia scripts that directly operate on the raw data files. This results in poor performance due to a lack of data-driven optimizations, as well as poor scalability due to being restricted to a single physical machine. Reasons for this trend lie in the high complexity and upfront effort associated with any specialized system: Distributed large-scale engines must be set up carefully and data must be be converted/transferred into the the proprietary representation of the system. The users, who are typically not computer scientists or data management experts, must adopt and use a specialized multi-dimensional query language to formulate their analytical tasks. As a counter-measure, in this work, we present Northlight, a query processing engine for atmospheric datasets that is (a) easy to adopt for the Earth science community while (b) providing domain-specific automatic query optimization. Northlight is built on top of the established sparksql dataflow engine and connects to atmospheric datasets stored in multi-dimensional NetCDF files. As a consequence, it becomes possible to process these datasets simply via conventional SQL, which is sufficient for a large variety of analysis tasks in the community. At the same time, Northlight provides automatic query optimization specifically tailored towards the processing of observational datasets. We experimentally show that Northlight scales gracefully with the selectivity of the analysis tasks and outperforms a comparable pipeline by up to a factor of 6x.

关键词： Earth Science Atmospheric Physics Climate Analysis NetCDF sparksql Query Optimization

来源：评论

学校读者我要写书评

暂无评论

sparksql上自适应数据集的高效频繁集挖掘算法

引用

计算机工程与应用 2020年第21期56卷 72-78页

作者：王永贵郭昕彤辽宁工程技术大学软件学院辽宁葫芦岛125105

针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于sparksql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产... 详细信息

针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于sparksql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产生的项集,解决RDD内存资源和计算速度受限问题。基于先验定理对事务、项目和项集进行精简,同时提出用Sql语句对项集中项目对应事务集合求交集的方式计算项集支持度,提高计算支持度的效率。提出了两种迭代算法和自适应数据的选择条件,增强该算法对各种数据集的泛化性。进行多组实验,证明提出的算法总是自适应本次迭代数据的特点选择最优的迭代方法,同时具有较高并行算法性能,可以扩展到更大规模集群和数据;同基于Spark框架的关联规则算法YAFIM和R-Apriori进行对比,在每次迭代和总体运行计算效率上有更好的表现。

关键词：频繁集大数据候选集自适应数据布隆过滤器 sparksql

来源：评论

学校读者我要写书评

暂无评论

基于文本信息的sparksql处理研究

引用

电子技术与软件工程 2020年第15期 213-214页

作者：史媛山西机电职业技术学院山西省长治市046011

本文以图书信息为例,介绍了Spark中对结构化数据进行处理的组件sparksql,使用sparksql转换文本信息文件为DataFrame数据集,然后运用Scala语言对数据集进行操作运算,得出最终结果并将结果输出,最后分析结果得出可以采取的策略。初步阐述... 详细信息

本文以图书信息为例,介绍了Spark中对结构化数据进行处理的组件sparksql,使用sparksql转换文本信息文件为DataFrame数据集,然后运用Scala语言对数据集进行操作运算,得出最终结果并将结果输出,最后分析结果得出可以采取的策略。初步阐述了sparksql处理文本数据的过程与步骤和Scala语言的运用。

关键词：文本 sparksql Scala

来源：评论

学校读者我要写书评

暂无评论

Hadoop环境下基于sparksql海量自动站数据查询统计初探

引用

气象科技 2019年第5期47卷 768-772,871页

作者：黄志詹利群任晓炜李涛广西区气象信息中心

在Hadoop分布式计算和存储架构下,自定义ETL数据清洗规则将海量自动站小时单站文件按所属年和站号合并为大文件流转存储至HDFS中,并运用sparksql并行计算框架进行统计处理生成常用气象要素日统计值。结果表明,数据处理和获取时效较关系... 详细信息

在Hadoop分布式计算和存储架构下,自定义ETL数据清洗规则将海量自动站小时单站文件按所属年和站号合并为大文件流转存储至HDFS中,并运用sparksql并行计算框架进行统计处理生成常用气象要素日统计值。结果表明,数据处理和获取时效较关系型数据库方式有显著提升。采用sparksql并行计算框架对多气象要素多站点和长时间序列进行数据统计处理查询均能达到秒级别响应,并随着统计站点数的不断增加和时间跨度的延长其优势更为明显,能更高效地支撑此类气象数据服务,为海量气象数据处理从关系型数据库到大数据分布式架构的转换处理提供了新思路。

关键词： Hadoop HDFS sparksql ETL

来源：评论

学校读者我要写书评

暂无评论

基于开源sparksql平台处理传统网管性能数据研究

引用

山东通信技术 2018年第2期38卷 5-8,12页

作者：李训潮宫钦中国移动山东公司济南250001

本文针对传统网管OMC北向性能数据,通过基于内存计算的sparksql技术进行处理,有效提升了基于Hadoop的大数据平台的计算能力,整合了分散异构的各传统网管数据,满足了不同租户的快速查询和交互式应用需求。

关键词： OMC 北向性能数据网管 sparksql 内存计算

来源：评论

学校读者我要写书评

暂无评论

SQL Query Optimization in Distributed NoSQL Databases for Cloud-Based Applications 1

引用

7th International Symposium on Algorithmic Aspects of Cloud Computing

作者： Karras, Aristeidis Karras, Christos Pervanas, Antonios Sioutas, Spyros Zaroliagis, Christos Univ Patras Comp Engn & Informat Dept Patras 26504 Greece Comp Technol Inst & Press Diophantus Patras Univ Campus Patras 26504 Greece

ISBN: (数字)9783031334375

ISBN: (纸本)9783031334368;9783031334375

A method for query optimization is presented by utilizing Spark SQL, a module of Apache Spark that integrates relational data processing. The goal of this paper is to explore NoSQL databases and their effective usage in conjunction with distributed environments to optimize query execution time, in order to accommodate the user complex demands in a cloud computing setting that necessitate the real-time generation of dynamic pages and the provision of dynamic information. In this work, we investigate query optimization using various query execution paths by combining MongoDB and Spark SQL, aiming to reduce the average query execution time. We achieve this goal by improving the query execution time through a sequence of query execution path scenarios that split the initial query into sub-queries between MongoDB and Spark SQL, along with the use of a mediator between Apache Spark and MongoDB. This mediator transfers either the entire database from MongoDB to Spark, or transfers a subset of the results for those sub-queries executed in MongoDB. Our experimental results with eight different query execution path scenarios and six difference database sizes demonstrate the clear superiority and scalability of a specific scenario.

关键词： Big Data and the Cloud Query Optimization sparksql NoSQL databases Indexes Big Data Analytics for Cloud computing

来源：评论

学校读者我要写书评

暂无评论

Retail Analytics to anticipate Covid-19 effects Using Big Data Technologies

Retail Analytics to anticipate Covid-19 effects Using Big Da...

引用

8th IEEE Asia-Pacific Conference on Computer Science and Data Engineering (IEEE CSDE)

作者： Sharma, Jessica Sharma, Deepikesh Sharma, Krishneel Univ South Pacific Sch Informat Technol Engn Math & Phys Suva Fiji

ISBN: (纸本)9781665495523

Retail analytics helps a company gain a deeper understanding of customer demand, making shopping more relevant, personalized, and convenient and boosting sales using optimal pricing. This paper aims to demonstrate retail analytics through a prototype that uses big data technologies. Using the big data technologies, the raw data is stored, analyzed and visualized to get valuable decision-making insights. The project objective is to help companies get retail analytics from which they can make decisions to anticipate the Covid-19 effects. The design for the system includes Hadoop Distributed File System (HDFS), Apache Pig, Apache Hive, sparksql, Spark MLLib, and Apache Zeppelin. The prototype uses a dataset that contains information for the transactions in the United Kingdom. Therefore it does not relate to covid-19 retail data but helps answer relevant questions. The dataset is used to investigate revenue aggregate by the country for the top 5 countries, daily sales activity, hourly sales activity, basket size distribution, top 20 Items sold by frequency, and market basket analysis. This paper can be used to produce a production possibility curve, reduce shortage, avoid surplus, illustrate demand and supply curves, and detect current economic conditions. All these would help the decision-makers to develop strategies to help them anticipate the impacts of Covid-19.

关键词： HDFS Apache Pig Apache Hive sparksql Spark MLLib Apache Zeppelin Apache Sqoop

来源：评论

学校读者我要写书评

暂无评论

基于Spark的元数据管理系统的设计与实现

基于Spark的元数据管理系统的设计与实现

引用

作者：马张迪电子科技大学

学位级别：硕士

随着高校数字化建设的深入开展,全国各个高校都在加快建设自己的数据中心,其中的一卡通平台,教学系统和科研管理等系统每天都会产生大量的数据。由于早期各部门数据存储系统和数据定义标准都不尽相同,这给数据的统一管理和使用造成了极... 详细信息

随着高校数字化建设的深入开展,全国各个高校都在加快建设自己的数据中心,其中的一卡通平台,教学系统和科研管理等系统每天都会产生大量的数据。由于早期各部门数据存储系统和数据定义标准都不尽相同,这给数据的统一管理和使用造成了极大的障碍,建设统一的数据中心并进行数据治理就显得十分必要。目前数据治理在全国各个高校开始兴起,元数据管理作为数据治理的重要部分,参与了数据的整个生命周期的活动。元数据管理是实现高校数据资产的全面聚合和数据深层次共享的核心关键。本文以传统的元数据管理系统为背景,从高校元数据管理的需求出发,对基于大数据技术的元数据管理系统进行设计和实现,即基于Spark的元数据管理系统。并详细阐述了理论基础,系统设计与实现和测试的内容。以下是论文主要的工作:1.在元数据分析方面:本系统使用Spark的核心组件Spark SQL对数据库进行操作,解析Spark SQL的逻辑计划,并对其进行拆解得到元数据血缘关系。通过对Spark SQL on Hive模块进行修改,解决了Spark SQL对字段级别的元数据分析困难的问题,提高了Spark对于字段级别元数据的分析能力。2.在元数据质量方面:本系统从元数据的填充完备率、一致性、唯一性,有效性和完整性对元数据质量进行检测,排查不规范数据。系统运行这些数据质量规则可产生相应的元数据质量报告,并支持导出报告,让数据分析人员对系统的元数据质量情况有清晰的掌握。3.本论文设计并实现了基于Spark的元数据管理服务,通过HDFS双机热备机制来保证系统存储数据的一致性,通过YARN来进行集群节点之间的任务调度,通过Spark来处理集群的计算请求,通过Hive进行数据仓库管理,使用HTML和***开发了Web界面进行功能交互,使数据管理员和数据分析员能便捷化地进行元数据管理。本论文实现了一个基于Spark的元数据管理系统,通过对系统进行功能测试分析,系统满足元数据管理的基本功能需求,对于元数据质量可以全程监控。基于Spark的元数据管理系统可以为后续数据分析,以及大数据治理活动:数据质量监控,主数据管理,数据资产管理提供深层次的服务,可以进一步加快高校大数据治理的进程。

关键词：数据治理元数据管理 sparksql 血缘分析元数据质量

来源：评论

学校读者我要写书评

暂无评论

The impact of columnar file formats on SQL-on-hadoop engine performance: A study on ORC and Parquet

引用

CONCURRENCY AND COMPUTATION-PRACTICE & EXPERIENCE 2020年第5期32卷 e5523-e5523页

作者： Ivanov, Todor Pergolesi, Matteo Goethe Univ Frankfurt Frankfurt Big Data Lab Frankfurt Germany Univ Perugia Dept Engn Perugia Italy

Columnar file formats provide an efficient way to store data to be queried by SQL-on-Hadoop engines. Related works consider the performance of processing engine and file format together, which makes it impossible to predict their individual impact. In this work, we propose an alternative approach: by executing each file format on the same processing engine, we compare the different file formats as well as their different parameter settings. We apply our strategy to two processing engines, Hive and sparksql, and evaluate the performance of two columnar file formats, ORC and Parquet. We use BigBench (TPCx-BB), a standardized application-level benchmark for Big Data scenarios. Our experiments confirm that the file format selection and its configuration significantly affect the overall performance. We show that ORC generally performs better on Hive, whereas Parquet achieves best performance with sparksql. Using ZLIB compression brings up to 60.2% improvement with ORC, while Parquet achieves up to 7% improvement with Snappy. Exceptions are the queries involving text processing, which do not benefit from using any compression.

关键词： BigBench big data benchmarking columnar file formats Hive ORC Parquet sparksql SQL-on-Hadoop

来源：评论

学校读者我要写书评

暂无评论

基于Spark的农业土壤大数据挖掘系统的设计与实现

基于Spark的农业土壤大数据挖掘系统的设计与实现

引用

作者：陈兆阳吉林农业大学

学位级别：硕士

我国是世界农业大国之一，具有悠久的农业历史，农业在整个国家经济中占有重要地位。如今，增强农业生产力、提高现有农田的产量以满足人口增长的需要是21世纪的主要挑战之一。在农业生产不断发展的过程中，虽然我国在农业领域取得了显... 详细信息

我国是世界农业大国之一，具有悠久的农业历史，农业在整个国家经济中占有重要地位。如今，增强农业生产力、提高现有农田的产量以满足人口增长的需要是21世纪的主要挑战之一。在农业生产不断发展的过程中，虽然我国在农业领域取得了显著成果，但农业发展的不足和问题依然存在。21世纪是知识经济的时代随着科技不断的发展与应用的时代，我国已经开始从传统农业1.0时代进入到智能农业4.0时代，进入了一个全新的发展阶段，同时利用5G、物联网、云计算、智能传感以及移动互联网等技术实现对农业的精准作业。农业土壤质量对农作物生长存在重要影响，通过无线传感器网络技术能够获取不同种植区域中大量的土壤数据，如何高效的运用这些数据，从大量数据中提取有效信息，对大量的数据信息进行储存与剖析，深入分析农业土壤大数据，成为我国农业数据技术发展用来提升农业发展质量的重要问题。　　为解决农业生产环境中土壤大数据挖掘分析以提高对农作物的精准作业，我们设计出一种基于Spark的农业土壤大数据处理系统。　　该系统存在三层设计系统：　　（1）数据层，是金字塔最基层，负责数据储存方面的问题，通过HDFS（Hadoop分布式文件系统）结合RDD技术以及MySQL实现对农业土壤大体量数据集的存储;（2）业务层，该层位于信息层之上，即数据处理分析问题，选用Spark框架提高数据处理效率;同时，众多集成挖掘算法也在该层中进行，在数据挖掘上，采用谱聚类算法和H-mine算法，利用Spark生态系统中的sparksql实现对数据查找和处理、结合GraphX与谱聚类算法并行，以及H-mine频繁集挖掘算法，对海量数据信息进行分析挖掘。　　（3）交互层是金字塔最顶层，系统与用户在该层中进行交互。通过实验，对土壤肥力在中国土壤数据库里记载的数值进行实验结果分析，我们可以得出，谱聚类算法在进行农业知识聚类分析时具有十分重要的作用。故此，分布式储存框架和并行计算的实施，提高了信息挖掘算法在农业大数据系统中的作用。通过以上，本文实现了基于Spark的农业土壤大数据挖掘系统，利用该系统最终通过获取农业生产知识以及农业生产过程产生的规律，在现实生活中极大的为大数据技术的施行以及推动农业信息化方面，提供了客观的数据分析和支撑，为农业精准作业提供有效指导。

关键词：农业土壤大数据挖掘系统 Spark框架 sparksql 谱聚类算法

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：