维持如图 2 结构具有挑战性,成本高,容易出错。定期复制湖泊和仓库之间的数据会导致数据过时和不一致。治理已经成为所有相关人员头疼的问题,因为访问控制分散在系统之间,数据删除必须在数据的多个副本上进行管理(GDPR)。更不用说团队在这些不同的管道中遇到了困难,所有权很快就会变得模糊。这给组织带来了以下挑战:
支持高吞吐量事件的数据引入了对廉价云存储和数据湖大规模计算可扩展性的需求。然而,尽管数据湖只支持额外的工作负载(没有合并),但它几乎不支持处理数据库复制。当涉及高吞吐量的可变数据流(如 NoSQL 当前的数据基础设施系统在存储、文档存储或新时代的关系数据库时,没有足够的支持。
通用数据湖仓库的集成架构使数据能够访问所有主要数据仓库和数据湖查询引擎,并与任何目录集成,这与以前将数据存储与计算引擎相结合的方法发生了重大变化。该架构可以使用最适合每一个独特工作的引擎,在BI和报告、机器学习、数据科学和无数更多用例中无缝构建特殊的下游“黄金”层。例如 Spark 它非常适合数据科学工作负荷,而数据仓库经过传统分析和报告的实际作战测试。定价和向开源的转变除了技术差异外,在组织采用计算引擎的过程中起着至关重要的作用。
数据湖是一个大型数据存储和处理平台,可以存储各种结构和格式的数据。数据湖提供了一个灵活的数据集成环境,支持快速的数据探索和分析。
此外, 在线业务系统、实时数据湖、物联网、AGI人工智能等领域也广泛应用于文档数据库。JSON的灵活格式适用于各种在线业务系统,特别是需要快速迭代开发的各种应用程序的业务应用程序。基于文档数据库的开发可以显著提高团队的研发效率。在实时数据湖方面,凭借JSON灵活的数据处理能力,巨山数据库帮助多位客户构建了全量的历史数据平台,支持跨系统、跨业务的实时高并发数据查询。
事实上,在大多数大型企业,MDM(主数据管理)意味着重大数据混乱 20 多年来,数据被扔进数据仓库和数据湖,没有全面的数据策略。展望未来,IT 领导者必须找到某种方法来清理基本上属于遗留数据的化粪池。
作为一个容器布局和管理平台,Kubernetes为整体架构提供了高度的灵活性和可扩展性。它可以自动部署、扩展和管理容器应用程序,为数据湖的建设提供可靠的基础设施。
元数据管理在数据湖的建设和维护中非常重要。我们使用catalog管理元数据,包括Iceberg元数据和其他第三方数据源元数据。元数据的维护和更新是通过定期任务来确保的。