当前位置: 首页 > 新闻资讯  > 数据中台

数据湖是大数据存储、处理和分析的基础设施

未来,巨山数据库将继续优化湖泊仓库集成数据服务平台,探索和尝试更多的湖泊仓库集成解决方案,帮助企业释放全部数据价值。数据湖作为大数据存储解决方案的首选,其出现意味着基于关系数据库(传统数据库)的传统数据仓库,只能存储结构化数据,正陷入挣扎的泥潭。

对于数据湖,即使互联网行业不断有新的应用,业务不断变化,数据模型不断变化,数据仍然可以很容易地进入数据湖。对于数据的收集、清洁和标准化处理,可以在业务需求时完全延迟。这与早期的数字仓库思维非常不同。与企业相比,数据湖具有较强的灵活性,可以更快地适应上层数据应用的变化。

数据仓库相比,数据湖是大数据存储、处理和分析的基础设施。它就像一个大仓库,可以存储任何形式(包括结构化和非结构化)和任何格式(包括文本、音频、视频和图像)的原始数据。数据湖通常更大,存储成本更便宜。结合先进的数据科学和机器学习技术,它可以提供预测分析和推荐模型的能力。

我们推出的开源项目的目标或核心意义在于平衡当前开源Table format与产品的距离,我们的定位称为流式湖仓服务。从概念上可以看出,一套东西不会在数据湖的基础上重建。我们更关注如何帮助企业和用户使用这个东西。在这个过程中,比如管理和适应的问题,都会在这个基础软件层解决。

大约10年前出现了数据湖。它的想法起源于:“这里有一个非常便宜的存储空间,我们可以通过将客户的所有数据转移到这里,然后使用BI工具获得基于这些数据的商业分析。但事实证明,仅仅将所有数据转移到一个中心位置通常不够好,所以人们现在正在做的是获取这些数据的子集,并将其移动到基于云的经典数据仓库。

有数据仓库,包括信息以最终结论的形式分类、排序和呈现(其余的被丢弃),以及数据湖——“把一切都留在这里,因为你永远不知道什么会有用”。数据中心专注于那些不属于第一类或第二类的人。

数据湖和数据仓库最初是在大数据技术条件下建立分布式系统的两个数据架构设计方向。整合后的湖泊仓库整合为行业和用户展示了湖泊和仓库相互补充和协作的架构。未来,巨山数据库将继续优化湖泊仓库集成数据服务平台,探索和尝试更多的湖泊仓库集成解决方案,帮助企业释放全部数据价值。

数据湖无缝连接各种计算分析平台,支持Hadoop生态。存储在数据湖中的数据可以直接分析、处理和查询数据。通过对数据的深入挖掘和分析,可以洞察数据中包含的价值。

与此同时,我们现在称之为“传统数据库”的东西正在输给创新的数据库解决方案。数据湖作为大数据存储解决方案的首选,其出现意味着基于关系数据库(传统数据库)的传统数据仓库,只能存储结构化数据,正陷入挣扎的泥潭。相比之下,数据湖通常建立在 Hadoop 集群或 NoSQL 在数据库之上。

本站部分内容及素材来源于互联网,如有侵权,联系必删!

相关资讯

    暂无相关的数据...