检索结果-内蒙古大学图书馆

作者：金慧修华中科技大学

学位级别：硕士

随着信息大数据时代的来临,在海量数据存储与海量数据运算需求的推动下,大数据存储与大数据运算平台得到了飞速的发展。传统单服务期环境下的文本挖掘算法对文本特征提取以及分类需要耗费大量的时间,而MapReduce计算框架需要将运算中间... 详细信息

随着信息大数据时代的来临,在海量数据存储与海量数据运算需求的推动下,大数据存储与大数据运算平台得到了飞速的发展。传统单服务期环境下的文本挖掘算法对文本特征提取以及分类需要耗费大量的时间,而MapReduce计算框架需要将运算中间数据存储在文件系统,伴随着用户对运算性能需求的提升,这种运算模式已经远远不能满足用户的需求。在spark计算框架下提出并实现一种FEBLTL文本特征提取算法,该算法在LDA对特征进行初步筛选的基础上,综合考虑特征词的词性、位置以及特征重要性权重,通过逻辑回归对关键特征进行有监督学习提升了关键特征提取的准确率。在spark环境下改进并实现了最大熵文本分类算法,通过TextRank特征权重值重新定义最大熵的二值函数,将改进的最大熵算法与K近邻、支持向量机和朴素贝叶斯算法在文本分类的准确率上进行对比,改进的最大熵分类算法在分类准确率上优于朴素贝叶斯且与K近邻和支持向量机算法不相上下。研究并实现通过sparkStreaming加载离线模型,准实时的批量对文本进行挖掘分析。研究的成果应用至点评文本挖掘分析,设计并实现了基于spark的点评文本特征提取和点评文本分类,在spark分布式计算框架下对点评文本的语料进行爬取,抽取了点评文本的语义标签并对点评文本实现了情感分类。基于spark的点评文本的语义标签的抽取和情感分类可以快速的对文本信息进行挖掘分析。在文本挖掘领域,spark并行式计算框架可以快速和实时对文本数据进行挖掘分析,改进的文本特征提取算法和文本分类算法能够更精准的提取文本关键特征,更准确的对文本进行分类。

关键词： spark计算框架大数据文本分类特征提取分布式爬虫

来源：评论

学校读者我要写书评

暂无评论

spark框架下基于变量预测模型的变压器故障的并行化诊断

Spark框架下基于变量预测模型的变压器故障的并行化诊断

引用

作者：马利洁华北电力大学

学位级别：硕士

电力设备的在线监测数据呈现出大数据的特性,而变压器故障诊断存在小样本分类效果差等问题。大数据存储和处理技术可有效解决传统单机工具无法有效处理的情况。该课题构建了包含spark、Hadoop等在内的云计算平台,选取大量DGA数据(大量... 详细信息

电力设备的在线监测数据呈现出大数据的特性,而变压器故障诊断存在小样本分类效果差等问题。大数据存储和处理技术可有效解决传统单机工具无法有效处理的情况。该课题构建了包含spark、Hadoop等在内的云计算平台,选取大量DGA数据(大量未标记数据,少量有标记数据)进行实验分析、研究,实现了故障诊断及方法的优化。基于spark计算框架实现了变量预测模型并行化处理。首先,采用HDFS作为内存式存储系统,面向行存储的RowMatrix作为分布式矩阵存储结构,利用广播变量、调整分区数进行并行度优化。其次,训练四种数学模型获取故障类型的最佳模型及相关参数完成故障诊断。采用标准数据集验证该算法对高维特征向量有较好的适应性。以油色谱数据作为应用实例,在识别精度方面与支持向量机算法进行对比。基于并行变量预测模型,结合堆栈降噪自编码网络,实现SDAE-VPMCD混合模型的故障诊断及预测。首先,归一化处理变压器油色谱数据;其次,对堆栈降噪自编码网络进行逐层训练学习,获取数据的高层特征表示并确定网络结构参数;然后,训练变量预测模型中四种数学模型,获取故障类型的最佳模型及相关参数;最后,采用少量有标签数据微调混合模型,确定最优网络参数完成故障诊断。将该混合模型应用于油色谱数据的特征提取和故障诊断,验证了该模型的性能和鲁棒性。

关键词：故障诊断小样本变量预测模型并行计算 spark计算框架堆栈降噪自编码

来源：评论

学校读者我要写书评

暂无评论

基于spark的会话语料库管理系统

基于Spark的会话语料库管理系统

引用

作者：王松河北师范大学

学位级别：硕士

近几年来,随着计算机技术的快速发展,语料库作为语言学研究的一种手段,对汉语、英语以及世界各国语言的研究起到了重要的推进作用,语料库的建设也引起了国内外的广泛关注。语料库是为某一个领域或者多个领域收集的具有一定结构的、具有... 详细信息

近几年来,随着计算机技术的快速发展,语料库作为语言学研究的一种手段,对汉语、英语以及世界各国语言的研究起到了重要的推进作用,语料库的建设也引起了国内外的广泛关注。语料库是为某一个领域或者多个领域收集的具有一定结构的、具有代表性的、并且能够被计算机程序检索的有规模的语料集合。不同规模、不同类型的语料库对语言学研究具有不同的影响,并且随着语料库的加工程度越来越深,应用范围也越来越广。把会话语言作为研究对象,建立相关的会话语料库,有助于人们将语言的结构规律更加形式化、计算化的表示出来。本文主要针对会话语料进行语料库管理系统的设计,对语料的存储以及查询进行研究。会话语料具有一定的结构,可以使用XML文档进行语料的存储,利用spark计算框架对语料进行分布式存储。本文的主要内容如下:(1)设计并实现了基于spark的会话语料库管理系统,系统中主要包括存储模块和查询模块。用户可以根据自身的的需求上传语料建立语料库,也可以对语料库中的语料进行聚合查询等查询。(2)针对会话型语料自身语言结构的特点对会话型语料的存储进行研究,使用XML对会话型语料进行存储,并将数据存储在大数据环境下,实现了将用户上传数据转换为XML文档。(3)对于大数据环境下语料,使用原始的XPath查询或者XQuery查询对XML文档进行查询响应时间会越来越长。为了提高查询的效率,利用spark对XML文档进行分布式的查询,使用XPath或者XQuery查询,实现了对语料的分布式查询。

关键词：会话语料库 spark计算框架分布式查询 XML

来源：评论

学校读者我要写书评

暂无评论

基于PostgreSQL和spark的可扩展大数据分析平台

基于PostgreSQL和Spark的可扩展大数据分析平台

引用

作者：程敏中国科学院深圳先进技术研究院

学位级别：硕士

随着大数据的发展,传统数据仓库和数据分析技术正在经历深刻的变革。新兴的数据分析平台逐渐兴起。Hadoop作为面向非结构化数据的批处理分析平台,逐渐成为大数据处理的基准平台。spark是与Hadoop兼容的分布式计算引擎,它的内存计算模式... 详细信息

随着大数据的发展,传统数据仓库和数据分析技术正在经历深刻的变革。新兴的数据分析平台逐渐兴起。Hadoop作为面向非结构化数据的批处理分析平台,逐渐成为大数据处理的基准平台。spark是与Hadoop兼容的分布式计算引擎,它的内存计算模式,实现了相对于Hadoop性能的飞跃,是目前对大数据进行机器学习算法分析的标准选择。新兴平台提供了更多数据分析工具的选择,但是根据商业调查报告显示,SQL查询分析仍是目前大多数企业和公司数据分析的主要模式。而数据规模日益扩大,导致对数据分析的深入程度要求不断增高。如何在保持SQL的前提下增强关系型数据库的分析能力,当前普遍采用的解决方案是MPP分析型数据库和将关系型数据库与其他分析系统并存,但这两种方案都存在一系列纵向扩展和管理问题。为此,本文首次提出基于PostgreSQL和spark的可扩展大数据分析平台,简称PSS平台,将PostgreSQL的易操作性和spark强大的计算能力松耦合结合在一起,既保持关系型数据的易操作性和SQL分析能力,也使其拥有了强大的分布式计算能力和机器学习算法能力;对于两个异构平台的松耦合连接,本文基于Thrift框架提出了Dex中间件,向上与PostgreSQL的UDF通信,向下与spark集群进行通信;对于跨平台的数据传输,本文通过修改spark内核源码,提出了Dex RDD方案,避免了大量的磁盘I/O。PSS平台使用操作很简单,只需要在psql客户端执行SQL功能扩展函数就可以调用spark集群的算法模型;实验证明,PSS平台有良好的正确性、高效性和扩展性,扩展性体现在数据存储和计算执行在物理上隔离,能够独立进行扩展,用户针对数据源特征的添加自定义算法模型,据此,本文基于PSS平台实现了一个实时交通路况预测系统。

关键词： Postgres数据库 UDF扩展 spark计算框架内存计算 Dex中间件

来源：评论

学校读者我要写书评

暂无评论

基于用户评分的并行化推荐系统研究与设计

基于用户评分的并行化推荐系统研究与设计

引用

作者：董智超东北财经大学

学位级别：硕士

Big Data是近年来IT行业里最受欢迎的名词之一,在国内被直译为“大数据”,于2008年9月,在《自然》(Nature)杂志专刊发表的《Big data:The next Google》文章中被首次提出。在瞬息万变的大数据背景下,面对快速发展的互联网时代,如何在海... 详细信息

Big Data是近年来IT行业里最受欢迎的名词之一,在国内被直译为“大数据”,于2008年9月,在《自然》(Nature)杂志专刊发表的《Big data:The next Google》文章中被首次提出。在瞬息万变的大数据背景下,面对快速发展的互联网时代,如何在海量且杂乱的数据中高效且精准的找到有“价值”的信息已经成为一个亟需解决的问题。推荐系统是处理大数据并从中获取有“价值”信息的重要工具之一,其可以将用户与数据联系起来,利用相关算法将有“价值”的信息推荐给用户,也正是因为其拥有此特性,使之在新闻、社交领域和电子商务领域得到迅速发展并被广泛应用。spark作为当今主流的推荐系统计算平台,受到广大学者的一致好评,其使用RDD(弹性分布式数据集),使得数据在内存中进行高速计算,从而达到缩短推荐时间,提高推荐准确率的效果。本文首先介绍了推荐系统与spark的相关背景,并详细探讨了大数据处理相关技术,包括分布式计算框架spark、spark的运行机制、分布式文件系统HDFS,以及推荐系统中的主流算法。接下来,应用大数据相关技术,本文研究并设计了一个基于用户评分数据的并行化推荐系统,并详细论述了其架构和实现方法。以电影推荐为例,用户评分数据为用户对已观看过的电影评分,数据集呈现为稀疏矩阵,其很方便创建数学模型,进行分解计算。本文的具体研究工作如下: 1)深入研究了常见的推荐算法,尤其是基于模型的协同过滤算法,并阐述了为何使用矩阵分解方法中的交替最小二乘法(Alternating Least Squares,简称ALS)来进行电影推荐。 2)设计并实现了基于Scala编程的并行化推荐算法、推荐引擎模块、数据存储模块及用户交互模块。 3)使用Movielens全部5种版本数据集,进行了充分的测试,通过对实验结果的分析,得到了各个参数对推荐准确率的影响,从而优化推荐系统。

关键词：大数据推荐系统 spark计算框架协同过滤交替最小二乘法

来源：评论

学校读者我要写书评

暂无评论

基于容器的并行蛋白质结构比对系统的设计与实现

基于容器的并行蛋白质结构比对系统的设计与实现

引用

作者：姚春华中科技大学

学位级别：硕士

蛋白质结构比较可以为识别蛋白质之间的功能和进化关系提供有用的信息。随着蛋白质数据库中蛋白质结构数据的急剧增加,计算时间迅速成为大规模结构比较的瓶颈。为了更高效地处理信息量大的多结构比对(MSTA)任务,需要通过一定的方案实现... 详细信息

蛋白质结构比较可以为识别蛋白质之间的功能和进化关系提供有用的信息。随着蛋白质数据库中蛋白质结构数据的急剧增加,计算时间迅速成为大规模结构比较的瓶颈。为了更高效地处理信息量大的多结构比对(MSTA)任务,需要通过一定的方案实现对生物工具进行加速。生物领域中,比对效果较为优秀且计算时间较短的工具主要包含m TM-align、Matt、MAMMOTH-mult、MUSTANG等,但这些工具大多数为本地单机模式,在运行速度上还有很大的提升空间。因此,业界采用多线程、GPU以及大数据组件等方法实现对蛋白质多结构比对工具进行改造。这些改造的方法大多需要设计者对原有算法进行较大范围的修改,或者引入大量第三方的组件依赖。用户在使用时可能会涉及大量的学习和运维成本。基于容器的并行蛋白质序列比对系统基于m TM-align,根据其不同的比对特点,对m TM-align进行阶段划分和拆解。对于不同的阶段,采用不同的加速方案,从而实现加速效果最大化。加速方案主要利用大数据组件spark的Pipe函数以及g++中的open MP来保证对原有工具的改动最小,而由此产生的多数环境依赖,系统通过容器化的方案并结合Argo工作流组件来实现便捷化控制部署,通过Web端实现对蛋白质序列比对工具的管理以及对工作流的管理,并利用反向代理实现对内部网页的代理访问。系统基于Kubernetes实现对容器的部署和调度,利用脚本和包管理工具完成HDFS等大数据组件的自动化部署。基于容器的并行蛋白质序列比对系统利用大数据和多线程的优势,以及容器化的便捷性。实现了大幅减少蛋白质序列比对时间,同时有效地减少系统部署和运维的时间成本。为生物科研人员快速便捷地实现蛋白质序列比对提供了有效的解决方案。

关键词：蛋白质结构比对 spark计算框架多线程容器

来源：评论

学校读者我要写书评

暂无评论

基于spark并行搜索的自适应决策优化机制的研究与实现

基于Spark并行搜索的自适应决策优化机制的研究与实现

引用

作者：王丹娣西安电子科技大学

学位级别：硕士

随着计算机技术的迅速发展,软件系统的规模也在不断增加并且趋向于复杂,这也导致人为调整软件行为的过程变得更加困难、易出错、并耗费时间、精力和成本,软件健壮性不足。互联网环境下的软件系统需要应对复杂的软件变化并且持续地满足... 详细信息

随着计算机技术的迅速发展,软件系统的规模也在不断增加并且趋向于复杂,这也导致人为调整软件行为的过程变得更加困难、易出错、并耗费时间、精力和成本,软件健壮性不足。互联网环境下的软件系统需要应对复杂的软件变化并且持续地满足用户的需求,因此软件系统自身需要在运行过程中具备自适应能力,即可以在运行过程中动态调整自己的行为、属性、结构等以适应环境或用户需求的变化,从而提高系统的适应能力,延长软件的使用时间。自适应软件通过建立自适应控制循环(MAPE)实现对软件的自适应控制,其中自适应决策环节主要负责生成自适应策略。因此,自适应决策的能力直接影响着自适应软件的质量属性与对外服务,是自适应软件领域的热点与难点问题。自适应决策的本质定义是将变化作为目标,从若干备选方案中寻找或产生最能满足目标的自适应策略的过程。因此,它不仅是一种状态迁移的问题,也是一个优化问题。从优化的角度出发,将有可能建立新的自适应决策方法。因此,本人所在课题组将基于搜索的软件工程和自适应软件领域相结合,同时根据遗传算法在全局搜索以及扩展性方面的优势,利用遗传算法来实现软件的自适应决策。根据基于搜索的软件工程的思想,将不同软件变化可被建模为不同的优化目标。在运行过程,软件系统可通过搜遗传算法在解空间中选择出最优的自适应策略以调整自身行为,适用于软件自适应决策。然而遗传算法在实现自适应决策过程中存在搜索性能差和时间开销大等缺点,直接影响了自适应决策的效率,因此,如何提高基于搜索的自适应决策效率,减少自适应决策时间显得极为重要。本文针对基于搜索的软件工程解决自适应决策问题过程中存在的效率问题,研究一种基于spark并行搜索的自适应决策优化机制,提高基于搜索的自适应决策效率,确保自适应调整方案产生的时效性。首先,建立基于spark并行搜索的自适应决策优化框架模型,对基于搜索的自适应决策优化过程进行整体描述,指导优化过程建立;然后分析spark平台资源调度方法和过程,结合软件自适应需求和自适应任务特征,设计基于spark的动态任务调度策略。接着结合遗传算法天然的并行性,采用基于spark的粗粒度并行遗传算法来实现自适应任务的并行执行,设计基于自适应任务并行搜索过程。同时,从实现角度,建立自适应决策优化中心,对本文提出的基于spark并行搜索的自适应决策优化机制的具体实现进行说明。最后,搭建原型系统,通过将BookStore作为目标系统进行实验并对测试结果进行了分析,验证上述机制的有效性。最后,总结本文的全部工作,同时对文中一些需要完善与深入研究的方向进行了展望。

关键词：自适应系统自适应决策 spark计算框架遗传算法

来源：评论

学校读者我要写书评

暂无评论

基于集成学习的转子部件脱落故障诊断方法

引用

数字制造科学 2022年第1期 16-22页

作者：周晓马圣杰武汉理工大学机电工程学院湖北武汉430070

针对常规信号处理方法在多传感器数据综合利用中的不足,通过时频域和全息谱等技术进行故障特征提取,构造用于故障诊断的转子部件脱落故障诊断数据集。针对单模型在转子脱落故障诊断中识别准确率不高的问题,提出了一种集成学习模型,并为... 详细信息

针对常规信号处理方法在多传感器数据综合利用中的不足,通过时频域和全息谱等技术进行故障特征提取,构造用于故障诊断的转子部件脱落故障诊断数据集。针对单模型在转子脱落故障诊断中识别准确率不高的问题,提出了一种集成学习模型,并为了处理海量监控数据,基于spark框架进行并行化设计。实验证明该方法是一种可行的转子脱落故障诊断方法,相对于单模型能提高故障诊断的准确度,且能通过并行化实现良好的加速效果。

关键词：集成学习转子脱落故障全息谱 spark计算框架

来源：评论

学校读者我要写书评

暂无评论

基于频繁项集挖掘算法的伴随车应用与实现

引用

计算机应用与软件 2017年第4期34卷 60-64页

作者：陈瑶桂峰卢超王华上海市计算技术研究所上海200040 同济大学电子与信息工程学院上海201800

随着大数据技术的发展和交通数据量迅速膨胀的挑战,对海量交通数据进行伴随车挖掘已然成为研究热点。提出一种基于spark计算框架的频繁项集挖掘算法应用于伴随车挖掘模块当中,对海量的卡口交通数据进行Hadoop分布式文件存储(HDFS),并将... 详细信息

随着大数据技术的发展和交通数据量迅速膨胀的挑战,对海量交通数据进行伴随车挖掘已然成为研究热点。提出一种基于spark计算框架的频繁项集挖掘算法应用于伴随车挖掘模块当中,对海量的卡口交通数据进行Hadoop分布式文件存储(HDFS),并将伴随车挖掘结果可视化地展示在集成系统当中。以实际项目为依托,从而验证该伴随车模块的实现具有实际意义,并可为交通管理者提供科学的辅助决策。

关键词： HDFS spark计算框架频繁项集挖掘伴随车

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：