检索结果-内蒙古大学图书馆

作者：叶君炎湖南大学

学位级别：硕士

随着网络信息技术的不断发展,互联网已经在各行各业渗透,而且互联网的用户数目也在不断地增加,这使得互联网数据形成了爆发式地增长,对分布式计算而言也是新的机遇。mapreduce是由Google提出针对海量数据进行处理的分布式并行计算编程模... 详细信息

随着网络信息技术的不断发展,互联网已经在各行各业渗透,而且互联网的用户数目也在不断地增加,这使得互联网数据形成了爆发式地增长,对分布式计算而言也是新的机遇。mapreduce是由Google提出针对海量数据进行处理的分布式并行计算编程模型,它具有并行自动处理作业,编程简单及可靠性高等特点。Hadoop是基于mapreduce的分布式并行开源计算平台,由于其定制和使用简单的特点而被许多科研单位和企业用于海量数据的研究和处理。在Hadoop中分别应用 mapreduce 和 HDFS(Hadoop Distributed File System)来处理和存储海量数据。推测执行是计算和存储高效性和健壮性的保障。它通过执行找出异常的慢任务并将其放于另一个节点备份执行,以达到节省集群资源和降低任务执行时间的目的。推测执行策略现在主要的有基于启发式的LATE和基于自适应mapreduce的SAMR。通过对LATE策略中存在的问题进行总结和分析,LATE推测执行算法只是通过比较某任务的进度速率和所有任务的平均进度速率的大小来决定是否进行推测执行,却没有考虑资源的消耗和负载的变化,于是(Speculative Execution for Benefit of Cluster,SEBC)推测执行算法从集群收益上进行了考虑,对资源进行建模,在考虑节点处理任务类型的基础上进行推测执行。实验表明SEBC能够更加有效地降低作业执行时间及提高集群性能。对SAMR策略执行流程和存在的问题进行深入分析,提出了一种基于随机森林的推测执行算法(Speculative Execution based on Random Forest,SERF),该算法在以YARN为主的新一代Hadoop平台基础上进行建模,运用随机森林机器学习算法对整体集群进行预测,并且把Map任务分成了 nodeLocal,rackLocal,offSwitch三种类型,简单有效地对3类任务执行信息进行了统计和分析,从而对计算节点处理任务的性能有了更加精准的定位,通过实验表明不仅保证了整体集群的收益,而且SERF推测执行算法比SAMR推测执行算法更加精准。

关键词： mapreduce算法推测执行 Hadoop mapreduce

来源：评论

学校读者我要写书评

暂无评论

基于迭代mapreduce的大规模RDF本体传递推理方法研究

引用

合肥学院学报（自然科学版） 2015年第4期25卷 35-38页

作者：吕刚胡春玲陈圣兵合肥学院计算机科学与技术系合肥230601

随着Web内容爆炸式增长,基于RDF的开放关联数据越来越多,传统的RDF推理技术难以适应日益增长的大规模RDF数据推理任务.提出基于mapreduce的分布式迭代算法,设计了简洁的去重方法,实现分布式RDF推理,解决了RDF传递推理工程中持续产生单... 详细信息

随着Web内容爆炸式增长,基于RDF的开放关联数据越来越多,传统的RDF推理技术难以适应日益增长的大规模RDF数据推理任务.提出基于mapreduce的分布式迭代算法,设计了简洁的去重方法,实现分布式RDF推理,解决了RDF传递推理工程中持续产生单调递增数据集传递闭包问题.实验采用基于Hadhoop的分布式文件系统存储mapreduce算法,实验结果显示方法具有较好的计算性能和可扩展性.

关键词： mapreduce算法 RDF推理迭代算法 Hadhoop 大规模计算

来源：评论

学校读者我要写书评

暂无评论

海量数据处理技术研究与应用

海量数据处理技术研究与应用

引用

作者：詹振鹏厦门大学

学位级别：硕士

论文主要是致力于海量数据处理技术的研究与应用，涉及到相关的海量数据存储、海量数据文件系统、海量数据检索、海量数据运算、数据可信度方法验证反馈等内容。同时本论文深入地探讨与研究了日前互联网最为热门及最具发展潜力的SNS网... 详细信息

论文主要是致力于海量数据处理技术的研究与应用，涉及到相关的海量数据存储、海量数据文件系统、海量数据检索、海量数据运算、数据可信度方法验证反馈等内容。同时本论文深入地探讨与研究了日前互联网最为热门及最具发展潜力的SNS网络，比如社交网络、微博等，并将相关的海量数据处理技术应用到SNS网络的热门话题生成系统中。\n 首先，论文对目前较流行的相关海量数据处理技术与关键算法进行深入的探讨与研究，涉及到Key-value分布式存储的研究，Google Bigtable数据模型的研究，Google GFS分布式系统原理的研究，Google mapreduce编程模型的深入研究，以及基于以上技术而实现的优秀的开源Hadoop海量数据处理系统框架的研究。\n 其次，论文还提出了一种改进的可信度方法模型，并通过严格的数学推理证明改进算法的适用性、同步单调性及合理性。通过改进的可信度分析方法，可以用来验证及计算海量数据处理结果可信度的定量值，并反馈于海量数据处理系统，辅助其相关处理算法的改进。改进的可信度方法用于海量数据处理的验证过程中，一方面克服了传统可信度方法的一些缺陷（比如在某些情况下出现CF值与条件概率值相矛盾的问题）；另一方面，在海量数据处理的某些特定的应用，其对于相关的算法调整有很好的反馈作用。\n 最后，论文还完成了一个基于海量数据处理的微博热门话题生成系统。通过海量数据处理的相关技术，以及编写相关的mapreduce算法，对原始的海量微博博文数据进行分布式处理，并对生成结果数据的可信度方法分析。实验表明，其可以较为高效的生成相关的热门话题排行榜信息，本系统框架不仅仅可以应用于微博平台，也可以应用到其它的SNS海量即时信息处理系统中，比如社交网络热门话题推荐等等。

关键词：海量数据处理可信度微博博文 SNS网络分布式存储 mapreduce算法

来源：评论

学校读者我要写书评

暂无评论

基于Hadoop的微博热点话题挖掘原型系统研究与实现

基于Hadoop的微博热点话题挖掘原型系统研究与实现

引用

作者：庄中方北京邮电大学

学位级别：硕士

随着以新浪微博为代表的富含“用户产生内容”(User-generatedContents，UGC)的网站的兴起，由于其带来的巨大的商业和社会意义，已经有很多研究机构和人员对其进行了一系列研究。在这些研究中，对于短时间内突发的热门事件的探测成为... 详细信息

随着以新浪微博为代表的富含“用户产生内容”(User-generatedContents，UGC)的网站的兴起，由于其带来的巨大的商业和社会意义，已经有很多研究机构和人员对其进行了一系列研究。在这些研究中，对于短时间内突发的热门事件的探测成为了一个主要的关注点，营销人员可以利用热门事件和话题进行有针对性的推荐和市场营销，公共服务机构可以利用这些热门事件和话题来提升他们的服务质量，政策制定者可以根据一些热门话题对于民意进行观察。正是由于这些需求才促使了挖掘微博热点话题成为了一个很关键的研究项目。\n 本文在研究了中文文本的特点以及文本挖掘中的相关算法之后，提出了在由热门关键词构成的图中利用社团挖掘的手段对热门的关键词群进行挖掘。由于微博文本的数据集巨大以及微博文本异于其他类型文本的特点，一般可以用于单机环境的文本挖掘解决方案对于这类大数据集的处理效率不高，故本文引入了Hadoop分布式平台来作为支撑此环境的平台。本文对于Hadoop及其相关的开源项目研究和讨论，对文本的处理进行了一定的研究，通过编写基于mapreduce的算法构建了一个包含词语TF-IDF计算、排序以及倒排索引方法的可以处理大数据集的解决方案。在此基础上，本文对原型系统分别进行了处理性能测试以及准确率测试，并对测试的结果进行了分析。然后本文对该系统中需要和可能的改进的地方进行了说明，并讨论了未来的研究方向。

关键词：文本挖掘系统架构热点话题挖掘新浪微博用户产生内容 mapreduce算法

来源：评论

学校读者我要写书评

暂无评论

基于Hadoop平台的视觉数据聚类研究与实现

基于Hadoop平台的视觉数据聚类研究与实现

引用

作者：李林西安电子科技大学

学位级别：硕士

Hadoop是解决大数据存储和分析问题的分布式模型。聚类算法能通过聚类生成码书，对视觉数据进行特征表达。如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题。针对大规模视觉数据聚类问题，本文设计并... 详细信息

Hadoop是解决大数据存储和分析问题的分布式模型。聚类算法能通过聚类生成码书，对视觉数据进行特征表达。如何将聚类算法架构在分布式模型上完成对大规模数据的聚类是科研和生产中的重要问题。针对大规模视觉数据聚类问题，本文设计并实现了基于Hadoop模型的视觉数据聚类算法，提高了视觉数据聚类的效率。本文首先介绍了视觉特征，分析了在视觉信息聚类生成码书过程中存在的维数灾难问题。然后，本文详细分析Hadoop分布式模型，设计并实现了基于Hadoop模型的视觉数据K-Means、GMM聚类方法，解决了在视觉信息数据生成码书过程中存在的维数灾难问题。通过Map/Reduce算法实现视觉数据的分布式聚类，很大程度上提高了视觉信息数据处理的效率。在这些研究基础之上，本文通过在不同规模实验数据和不同规模集群上设计实验和分析实验结果，得出了基于Hadoop框架的视觉数据聚类算法对大规模数据的聚类效率更高、加速比更大、可扩展性更强的结论。

关键词：视觉信息表达聚类 Hadoop平台 mapreduce算法

来源：评论

学校读者我要写书评

暂无评论

一种图像对象相似检索系统的设计与应用

一种图像对象相似检索系统的设计与应用

引用

作者：于猛浙江大学

学位级别：硕士

传统的基于内容的图像相似检索技术在结果的准确率方面已经进入到一定瓶颈,如何通过图像的其它附属信息(如:描述、评论、作者以及各种属性)来增强相似搜索结果的准确性是本文的研究重点之一。我们将图像本身和它的描述文本以及各种属性... 详细信息

传统的基于内容的图像相似检索技术在结果的准确率方面已经进入到一定瓶颈,如何通过图像的其它附属信息(如:描述、评论、作者以及各种属性)来增强相似搜索结果的准确性是本文的研究重点之一。我们将图像本身和它的描述文本以及各种属性的组合结构称之为图像对象。目前,针对图像对象的应用很多,例如:在传统的互联网相似图片搜索中,大部分新的技术采用图像的视觉特征与图像在网页中周围环绕的文本组合查询得到最相似的搜索结果；在美术作品的相似检索中,图像对象包含作品的作者、年代、画派和作品描述等属性。本文分析了其难点,并设计了相应的系统实现。\n 首先,对这些特征进行统一的处理与表达影响着最终系统的效率及效果。本文设计了一个统一的图像对象处理和相似度计算模型框架,对属性特征进行归纳分类总结。并根据系统的实际需求修改相应的查询函数,优化相似查询的效率。在特征权重选择方面,采用基于快速RankBoost算法框架的自适应权重选择方法。\n 其次,对于大规模数量的图像对象集合的有效管理也是难点之一。本文探讨了不同的索引结构之间的区别与共同点,采用了M-Tree作为主要的索引结构,并针对实际情况,设计了一种M-Tree的分布式方案。本文通过聚类预处理选取合适的中心点,用于索引的分片。同时,为了应对大规模数据,采用mapreduce实现聚类及索引创建的整个过程。使用增量索引的方法实现索引的插入,同时使用标记的方法实现索引的删除,以此来避免对主索引文件进行大量的修改操作。\n 最后,本文展示了一个采用图像对象相似检索技术的具体应用系统——“浙大图片搜索”,来对比通过基于文本、基于视觉特征、基于属性特征和基于图像对象在相似检索中的效果,并与通用搜索引擎中常用的“重排序”方法做对比。从而说明图像对象相似检索在实际应用中的支持能力。

关键词：图像对象分布式索引相似检索 mapreduce算法

来源：评论

学校读者我要写书评

暂无评论

基于大数据的稻田智慧管理平台设计研究

引用

辽宁师专学报（自然科学版） 2018年第3期20卷 69-72页

作者：樊迪王建华吴建胜董浩李嘉宁沈阳工程学院信息学院辽宁沈阳110136

通过分析当前我国稻田管理存在的问题,提出利用mapreduce算法模型,分别对Map函数、Combine函数、Reduce函数进行设计,构建具有综合管理、实时预警、多维感知、预测分析的大数据平台架构.从数据采集、数据分析、智能控制三个关键环节,对... 详细信息

通过分析当前我国稻田管理存在的问题,提出利用mapreduce算法模型,分别对Map函数、Combine函数、Reduce函数进行设计,构建具有综合管理、实时预警、多维感知、预测分析的大数据平台架构.从数据采集、数据分析、智能控制三个关键环节,对稻田智慧管理平台进行设计.该平台将对现有稻田管理业务形成有力支撑并创新建立科学高效的稻田管理业务模式.

关键词：大数据农业 mapreduce算法岭回归方法智慧管理平台

来源：评论

学校读者我要写书评

暂无评论

Big Data Privacy Preservation and Confidentiality in Publishing Healthcare Records

Big Data Privacy Preservation and Confidentiality in Publish...

引用

作者： Kingsford Kissi Mireku 电子科技大学

学位级别：博士

健康记录及医学笔记使得个人健康数据被包括患者、医生、研究员、统计员及数据学家在内的更多用户所得到，这对病患的隐私造成了严重的威胁。对医学数据分析来说，电子健康记录的分享起着十分重要的作用，同时，我们也不得不承认保留个... 详细信息

健康记录及医学笔记使得个人健康数据被包括患者、医生、研究员、统计员及数据学家在内的更多用户所得到，这对病患的隐私造成了严重的威胁。对医学数据分析来说，电子健康记录的分享起着十分重要的作用，同时，我们也不得不承认保留个人隐私的重要性。云计算和大数据现象为健康保健提供了很大的机遇，但在研究及分析数据的分享时，病患将产生对个人隐私的担忧。通过网络上传病患的电子健康系统时，患者隐私暴露的风险很大，信息轻易被暴露，可能会被医学诈骗利用。健康记录系统的主要考虑是在大数据平台上分析病患的数据而不用知道患者是谁。相关的研究运用了很多的框架，通过算法和框架来解决病患的隐私问题，这是十分令人高兴的。然而，这些解决方案却十分经不起考验。在病患隐私数据挖掘上，本论文主要在不违背数据所有者的情况下，通过大量数据的提取来解决问题。　　我们的第一个解决方案涉及到健康系统中病患数据的获取以及病患隐私得到保障的方式。在进一步研究中，从私人及公共的受访者中探寻客户数据隐私及大数据保护的关系，这些受访者包括来自公立医院及私人医院的病患、管理人员及数据记录者。我们运用皮尔森相关系数和线性回归分析进行验证。并且，我们用关联规则对实验结果进行分析，促进数据保护规则的建立，此举结合了电脑技术和社会力量，从而减少了健康记录及相关机构的风险。从长远上来说，转换了数据保护方向的范式，社会力量才是健康记录保护的推动者，这在当前大数据、数据隐私及健康记录都是没有涉及到的。　　第二个解决方案是解决收集隐私数据保护时出现的问题。我们提出在收集病患健康数据时，提供身份保密协议，作为保护病患隐私的方法。执行协议时，会产生两个阶段。第一个阶段，在收集数据时，用户将被配以特定的保密代码，以此使得用户的身份得以区分。第二个阶段，解密加密的数据，将数据分配，用于检测研究。　　第三个解决方案是对健康数据的发布，建立“混合型”的保护框架。运用K优化和mapreduce这两个算法为数据发布实现“匿名”。k优化将数据分成不同的分组，并储存在匿名的数据库中，第二种算法，即mapreduce，运用Hbase表格将匿名的数据及基于HDFS集群的K优化产生的二手数据表格。在发布数据时，可保护数据拥有者的隐私。　　最后，理论分析证实使用数据模型使患者和他们的记录分离出来，通过使用K优化和mapreduce算法，能保持数据的一致性，并同时保护我们共享及发布的数据。

关键词：医疗记录大数据平台隐私保护 HDFS集群 mapreduce算法

来源：评论

学校读者我要写书评

暂无评论

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案：

请选择收藏分类：

通借通还

建议与咨询 留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

时间限定

文献类型

馆藏选择

核心期刊

语言

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

分类表

所选分类

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

请选择保存的检索档案： 新增检索档案 确定 取消

请选择收藏分类： 新增自定义分类 确定 取消

通借通还

建议与咨询留下您的常用邮箱和电话号码，以便我们向您反馈解决方案和替代方法

请选择保存的检索档案：

请选择收藏分类：