云端数据湖解决方案是一套基于云计算构建的数据湖解决方案,采用 QingStor® 对象存储作为数据湖存储,HashData 作为数据湖计算引擎。云端数据湖解决方案可以低成本存储海量数据,规模无限扩展,支持多种数据种类(包括结构化、半结构化,多结构化等),并可以运行不同类型的分析(包括 SQL 查询、可视化、机器学习等)以指导做出更好的决策。

企业痛点

海量数据
数字化转型浪潮已经席卷各行各业,企业在数字化过程中会积累大量数据,特别是 IoT 设备、移动应用程序和社交媒体产生的数据呈现井喷之势。如何更好地存储这些海量数据,并利用这些数据提升企业智能化水平以及数字化服务能力,成为新的挑战。
Schema-on-Read
除了来自事务系统和业务线应用程序的结构化数据外,企业中来自 IoT 设备、移动应用程序和社交媒体产生的数据多为半结构化、非结构化数据。在捕获数据时,未定义数据结构 (Schema),传统处理海量数据的数据仓库软件无法对没有数据结构(Schema)的数据入库,需要一种新的处理方法快速处理这些数据。

部署架构

方案特点

弹性计算
  • 计算存储分离

HashData 采用计算存储分离架构,数据存储到 QingCloud 对象存储上,计算层采用基于 Greenplum 内核的 MPP 计算引擎。相对于计算存储绑定架构,计算存储分离在保证查询需求同时,可大幅减少服务器资源成本。

 

  • 在线扩容

支持在线实时弹性扩展,最快 15 分钟即可完成。当需要少量计算时,用户可以启动小集群,当计算量增加时,用户可以在几分钟内对集群进行扩容,而不需要迁移数据,可轻松应对超大容量及超高并发请求带来的性能挑战。

海量存储,无限扩容
  • 海量存储

QingCloud 对象存储是面向海量非结构化数据的通用数据存储平台,提供安全可靠、低成本的云端存储服务。可存储任意类型、任意数量、任意大小的文件。数据持久性达 99.999999999%,服务可用性达 99.99%。

 

  • 无限扩容

系统可无限水平扩展,且在存储容量水平扩展时,数据存取的性能线性提升。可承载无限存储空间,每个存储空间的容量亦可无限扩展。

性能不变,成本更低
  • 多级存储

对象存储 IO 速度比块存储低,HashData 创新缓存技术采用了多级存储架构,持久层数据采用对象存储,Cache 层采用基础型块存储或 SSD 企业级存储,通过 HashData 自带的冷热数据管理功能保证了数据查询性能,可保证性能不变。

 

  • 存储成本更低

采用对象存储,成本只有传统解决方案的 1/10。传统方案采用磁盘来存储数据,HashData 数据湖采用对象存储作为持久数据存储。对象存储的成本是磁盘的 1/5 左右,是 SSD  的1/10 左右,有明显价格优势。

合作伙伴

北京酷克数据科技有限公司