Hadoop平台存储系统解决方案

背景与需求

以Hadoop为代表的大数据技术,凭借海量、廉价、高性能数据分析等优势,正在获得越来越广泛的应用。一方面,大数据平台对用户业务的重要性日益增强,对可用性和可靠性有了更高的要求;另一方面,越来越多的用户希望把Hadoop技术应用于在线交易类系统,以降低成本。但Hadoop原生的HDFS文件系统存在许多不足,难以很好地支撑以上应用场景

• 系统单点故障。双机热备不能彻底消除NameNode的故障隐患,仍有较高风险

• 缺乏数据备份手段,无法应对逻辑错误或人为操作隐患

• 数据访问延迟较高,不适用于对访问延迟敏感的在线交易类系统

• 面向大文件访问设计,不适用于小数据块的访问,以及大量小文件的存储

此外,大数据分析平台的虚拟化需求也在增加,例如希望在非高峰时段将大数据平台空闲的计算资源用来处理其他业务;或者建设多套大数据分析平台供不同用户使用。而HDFS文件系统不适用于虚拟化场景

方案适用领域

适用于各个行业,尤其是有高可用性和可靠性要求的用户。可为典型大数据分析平台,大数据平台虚拟化,以及Hadoop在交易型系统中的应用等提供存储系统解决方案

方案描述

本方案采用鹏云网络自主研发的Zettastor DBS分布式存储软件, 基于大量标准x86服务器 , 组成高可靠、高可用、高性能的云存储系统。系统把服务器本地硬盘虚拟成统一的存储资源池 , 可供大数据平台的各个计算节点通过PYFS接口进行访问。PYFS能够与Hadoop平台无缝集成,完美替代HDFS,为大数据环境构建具备更高IOPS 承载能力、更低访问延迟的存储平台,同时为用户数据的备份归档保护提供便捷手段


图一:逻辑架构图


图二:系统部署示意图

方案特点

• 超高系统可用性及可靠性。采用全对称分布式构架设计,无单点故障,即使 1/3 数量设备宕机、局部网络故障、也不会导致业务中断或数据丢失

• 便捷数据备份手段。提供快照功能,数据可由快照立即进行恢复,也可经快照生成克隆卷,或经快照进行数据备份,有效保护用户数据安全

• 高性能。可提供超高的数据吞吐能力,适用于典型大数据分析场景

• 超低数据访问延迟。基于独有的原生块存储技术,实现远低于 HDFS 的数据访问延迟,为 Hadoop 技术在交易型系统中的应用创造条件

• 广泛适应不同数据访问特性。底层基于块数据结构,良好支持超大文件的同时,也适用于小文件存储,或小数据块访问,使得大数据平台应用场景覆盖更广

• 支持虚拟化部署。打破传统 HDFS 在虚拟化环境部署时的局限性,实现大数据平台的虚拟化部署,可以将大数据分析能力作为服务提供给不同客户,并进一步降低成本

解决方案优势

• 多用途统一存储平台。Zettastor可同时承载其他业务系统,在降低总体成本的同时,还可方便大数据平台与其他系统之间的数据流动与交互,提升处理效率

• 超大规模。可从数台服务器起步,随业务增长而平滑扩展至百万台服务器规模

• 简单管理。无需特殊技能和专业服务,无需性能调优;服务器节点故障时无需人工干预 , 系统可自动恢复正常稳定状态

• 自主研发,技术领先。拥有完全自主知识产权和多项技术专利。采用最先进的云技术构架,确保技术领先

如果您感兴趣,可申请试用。当您购买商用版时,仅升级license即可正式使用我们的产品