当前位置: 首页 > 新闻资讯  > 数据中台

网易数帆开发开源流湖仓服务Arctic项目的直接原因

它整合了数据湖和数据仓库,以提高性能、灵活性和成本效益,消除数据岛和ETL流程。金融企业希望整合实时数据湖和数据仓库,打造实时数据中心,支持数字业务创新。这本质上是湖仓一体化的理念,但目前的主流数据湖技术只解决了更新、大表访问性能、流量消费等问题,仍留下小文件,导致性能损失、兼容性和损失更新,开源社区没有相应的解决方案。

可以看出,数据湖相对于数据仓库的独特优势,无论是非结构数据存储处理还是分析灵活性等,在大多数企业没有条件实施,或没有足够的业务驱动力,大多数企业用户只支持SQLHIVE数据仓库,数据湖是更大的数据仓库,例如,90%的企业数据以HIVE表的形式存在,所有需求都不需要使用数据湖的独特技术。

数据湖不仅是一个流行语,也是一个显著而有意义的统一架构战略。它整合了数据湖和数据仓库,以提高性能、灵活性和成本效益,消除数据岛和ETL流程。它统一了所有数据,简化了数据工程流程,并共同支持BI和人工智能的工作负载。

金融企业希望整合实时数据湖和数据仓库,打造实时数据中心,支持数字业务创新。这本质上是湖仓一体化的理念,但目前的主流数据湖技术只解决了更新、大表访问性能、流量消费等问题,仍留下小文件,导致性能损失、兼容性和损失更新,开源社区没有相应的解决方案。这是网易数帆开发开源流湖仓服务Arctic项目的直接原因。

湖仓一体化要分层,首先要有对基础软件的需求,需要一套管理系统和相应的底层技术,让数据湖满足我们对离线、实时、机器学习、特征计算等各种场景的需求。

我不知道什么时候开始。许多企业开始在PPT中将大数据平台更改为数据湖。也许数据湖的名字更容易理解,老板们也喜欢使用它。似乎在一瞬间,每个人的大数据平台都升级为数据湖。

他们需要进行两个步骤的ETL操作,第一个步骤是数据进入数据湖,然后使用第二个步骤将其移动到数据仓库。因此,组织为这种结构冗余付出了沉重的代价。

2.数据湖主要用于存储原始格式的数据,数据湖可以存储结构化数据, 二进制数据;数据中心是企业级的逻辑概念,体现了企业数据向业务价值转化的能力。服务业务的主要方式是数据 API。

首先,通过连接数据库、数据仓库、数据湖等各种结构化和非结构化数据源,自动识别和获取元数据,然后根据元数据构建血缘、健康诊断和自动优化数据仓库和数据系统,使数据系统继续健康运行。

数据湖和数据仓各有特色和实力。当他们配合存在时,对客户来说最大的挑战就是如何兼顾两者的优势。

数据湖&Hadoop解决数据统一收集的问题,统一元数据解决数据连接、资产和管理的问题。对于相当多的用户来说,目前最大的痛点不是存储大量数据,而是如何控制分散在各个子数据系统中的数据岛。因此,通过构建逻辑层面的数据湖,实现统一的元数据 分散的物理存储,避免不必要的物理数据进入仓库(湖),使产品的上层功能,如主题域构建、数据地图等,是解决问题的根本途径。逻辑数据湖方案仍然可以使用物理湖&Hadoop,同时,提供通过虚拟表直接连接数据源的方案,将其他类型的数据源纳入平台控制,用户可以根据实际需要选择合适的存储方案。

正如上述,随着市场竞争和用户需求的不断变化,企业对数据及时性的需求不断上升,但实时数据分析场景的出现也给数据技术的实现带来了巨大的挑战。目前,无论是擅长事务型工作的数据仓库,还是数据类型更丰富的数据湖,还是 Hadoop MPP 基于模式下的湖仓分体 T 1 即使引入流处理引擎实现了一些固定模式的实时分析,也无法实现设计 T 0 全实时水平。

本站部分内容及素材来源于互联网,如有侵权,联系必删!

相关资讯

    暂无相关的数据...