对于企业来说,如何应用数据湖中的数据是另一件事,而不是通过数据湖进行数据存储。换句话说,一般用户、数据科学家、数据分析师和运营商对数据湖有不同的需求。当用户面对数据湖时,人们总是忍不住问:
体现在架构图上,第一种方式更像是东西方向的架构,在数据仓库旁边建立数据湖,实现数据交互和连接;第二种方式更像是南北架构,需要在数据湖上建立数字仓库服务层,加强数据管理和数据服务的提供。这两种方法没有优缺点,适合自己是最好的,需要根据自己的技术堆栈和数据需求进行选择和筛选。
结论:数据湖不仅是“囤积”数据的“大水坑”,还包括一系列数据进入、数据出入、数据管理、数据应用工具集,共同形成数据湖解决方案。
有了数据湖,企业可以研究如何围绕业务“设计”数据仓库。生产过程中产生的所有数据都可以被视为大数据,可以在数据湖中自由流通,可以随时根据灵活的数据分析需求进行提取和使用。
至于为什么数据湖被称为“湖”,而不是数据河、数据池、数据海?这是因为对于企业数据存储的需求,数据需要有一定的边界,需要考虑企业数据安全,但也可以流通和交换,所以数据应该能够“存储”,数据应该足够“存储”,数据应该有一个边界“存储”。企业级数据需要长期积累,因此是“数据湖”。
逻辑数据湖构建了一个“物理分散、逻辑统一”的数据湖系统,利用该系统开放多个数据岛,避免不必要的物理数据仓库(湖),使产品上层功能如主题域构建、数据地图等功能尽快提供给用户,在持续交付中不断管理历史数据结果。
多模数据湖:为图像系统、远程银行等需要大量管理非结构化数据的系统提供多模数据湖技术,重点优化非结构化对象数据的高并发实时访问能力,实现跨多数据类型的综合管理,提高研发和运维的“人为效率”。
数据仓库获取的数据和仓库中实现的转换和过程可视为ETL过程,即通过ETL工具提取清洗数据,进行任何需要的映射和转换,并将数据加载到数据存储层。ELT(提取、加载和转换)工具意味着先存储数据,然后转换数据。ELT工具的优点是数据跳过传统的临时存储层,直接进入数据湖。
这种沉淀必然涉及数据存储。随着数据存储技术和应用场景的快速丰富,关于数据湖和数据仓库的争论日益激烈。数据湖和数据仓库用于描述数据存储结构,但它们有不同的优势。
1. 统一元数据:统一元数据(元数据中心)为统一应用管理提供了基石。物理湖和逻辑湖都需要一个元数据中心的组件来控制湖中所有对象的元信息。主要具有以下核心功能: