星环科技作为一家专业的数据存储服务提供商,一直以来为证券、银行、政府等机构公司提供分布式大数据存储技术的支持,旗下一站式大数据平台(Transwarp Data Hub,以下简称TDH)集软件安装、运维于一身,同时提供了丰富的拓展功能。但是...
详细信息
星环科技作为一家专业的数据存储服务提供商,一直以来为证券、银行、政府等机构公司提供分布式大数据存储技术的支持,旗下一站式大数据平台(Transwarp Data Hub,以下简称TDH)集软件安装、运维于一身,同时提供了丰富的拓展功能。但是随着客户使用数据的增长以及使用场景的复杂化,单个数据仓库集群已经越来越难以满足客户的使用需求,部分客户为了减少数据迁移的成本,在不同地区都分别建立了大数据存储集群。在这种情况下,由于数据分散在不同的存储集群中,客户的数据查找成为了一个亟待解决的问题。本文基于客户实际使用场景中遇到的问题,详细分析了各类用户的使用需求,同时结合数据仓库当前的发展趋势,设计并实现了基于星环分布式计算平台(Inceptor)的数据仓库路由中间件(Inceptor-Gateway,以下简称Gateway)。Gateway中间件系统在大数据集群中位于客户端与数据仓库计算引擎之间,主要由客户端接收层、路由层以及发送层构成。用户通过客户端连接Gateway后便可同时与多个数据仓库建立连接,改变以往一次只能连接一个数据仓库的局面。用户通过提前配置的转发规则,便可以通过Gateway实现SQL请求智能转发、多节点负载均衡等功能。在多数据仓库的情景下做到数据结构对客户端透明,用户在查找数据时只需要专注于SQL语言的编写而不用关注数据的具体存放位置。同时为了进一步降低用户的使用成本,本文还基于Spring Boot设计了一个与Gateway协作的监控平台(DBAService),通过监控平台用户可以实时掌握系统运行状态以及转发详细,当SQL查询出现问题时可以通过该监控平台对出错节点进行快速定位,及时排查集群问题。目前Gateway已应用于公安、邮政以及多家银行证券机构的分布式存储集群中,在多数据仓库这类场景的集群构建及使用中发挥了重要作用。通过路由中间件Gateway的帮助,能极大地降低多数据仓库场景中用户的使用门槛,同时有利于构建更优的数据仓库结构,增加数据安全性。
随着对国内各厂商对经营分析和决策支持重视程度的加剧,作为经营分析、决策支持、数据挖掘等方面的基础,数据仓库的建设越来越引起人们的重视,数据仓库建设的好坏,直接影响到经营分析、决策支持、数据挖掘的效果。为了更好的支持不同级别、不同业务的经营分析,数据仓库的建设逐渐由集中式转向了分布式。目前,分布式数据仓库建设中存在着很多问题:规则调度、数据传输、一致性维护、即席查询、数据冗余、模型设计,如何更好的解决这些问题,是目前分布式数据仓库设计与实施的重点。
分布式数据仓库调度分为全局数据仓库规则调度和局部数据节点规则调度两个方面,每个方面的建设过程又包括数据采集、ETL、数据展现三个过程,全局数据仓库和局部数据节点之间、过程内部、过程之间存在着复杂的关系。如何设计一个数据调度的方法,如何在保证数据调度正确性的前提下尽可能的提高系统效率,实现并行性,尽可能的利用分布式系统带来的效率优势,是分布式数据仓库调度所要解决的问题。
作者在三年的数据仓库建设中,深入研究了UBIS(United Business Information System)系统规则调度的设计过程,提出了信息与控制分离的设计方案,基于MVC设计模式,作者把整个算法分成了3个部分,模型、视图和控制,有效地实现了信息与控制的分离,模型、视图和控制之间相互联系又相互独立,各个模块的改变并不影响到其它模块,使得整个算法更加灵活,更容易维护。
接下来,作者对UBIS(United Business Information System)系统一致性维护过程进行了深入的研究,归纳和总结了现阶段UBIS一致性维护的整个流程,分析了整个流程的利弊。之后,作者提出了一种基于strobe的分布式数据仓库一致性维护算法,描述了更新检测、操作控制、更新控制、错误处理等关键性问题。为解决分布式数据仓库建设中存在的问题提供了参考。
暂无评论