当前位置: 首页 > 新闻资讯  > 数据中台

数据仓库和数据湖在数字化转型中的作用和发展趋势

在前一篇文章中,我们分析了数据仓库和数据湖在数字化转型过程中的作用和发展趋势(大数据处理的浅辩论-架构和延迟)。经过多年的发展,数据分析与AI对不同任务的特殊数据系统进行分析。“无论是购买还是开发,企业通常维护数百甚至数千个应用程序。

目前,基于湖仓一体化,巨杉已与众多合作伙伴合作「多模数据湖」存储基础,帮助100多个金融客户,建立全类型的内容管理平台,支持多个音视频管理、双录音系统、柜台无纸化等业务系统。

在前一篇文章中,我们分析了数据仓库和数据湖在数字化转型过程中的作用和发展趋势(大数据处理的浅辩论-架构和延迟)。虽然技术的发展并不那么明显,但我们的企业也应该跟上今天数字化的趋势。

数据湖与数据仓库的分离带来了数据冗余和组件架构的复杂性。通过湖仓集成解决这一问题,要求查询引擎提供与专业数字仓库相同的高效查询效率。目前,基于JVM的Spark内核存在诸多瓶颈,主要体现在:

其他数据湖架构还包括由流量数据处理系统和实时数字仓库组成的偶数技术自主研发的Omega架构。它整合了Lambda架构和Kappa架构处理流量数据的优点,提高了实时按需智能和离线按需智能数据处理的能力,以及高效处理可变数据实时快照的能力。

“数据沼泽”是指随着企业的逐步发展和增长,数据量和业务量不断增加,处理数据的成本也在增加,但不能有效利用数据资源产生价值。数据湖结构本身缺乏数据监督、控制和必要的治理手段,导致运维成本增加,数据治理效率降低。从长远来看,企业陷入了“数据沼泽”的境地。

其次,数仓、数据湖和 AI 数据形成新的数据孤岛。经过多年的发展,数据分析与 AI 对不同任务的特殊数据系统进行分析。基于对象存储的大数据系统负责处理大量数据和非结构化数据,数字仓库系统处理结构化数据,AI 系统中的数据通常存储在本地。这些特殊系统“各自为政”,要么无法形成新的数据岛,要么不同业务的开发需要迁移数据,实施过程漫长,影响业务的快速发展。

“无论是购买还是开发,企业通常维护数百甚至数千个应用程序。每个应用程序都需要存储数据。此外,无数剩余数据库、一系列数据湖和仓库以及数量不明的操作电子表格正在快速增长。”

数据传输:实现不同逻辑数据源之间的数据传输,也是后续数据进入物理湖的基石。数据传输根据逻辑数据源的元信息给出最佳的传输方案。

越来越多的企业开始在云上建立数据湖,支持内部数据分析和数据决策,但数据湖和真实数据应用之间往往存在许多痛点。如今,大多数企业不再面临太少的数据,而是太多的数据,这使得业务用户在搜索和使用数据时难以准确定位所需的数据。

与从多个数据源中提取有价值数据的数据仓库不同,数据湖可以简单地理解为集中存储数据的数据库。无论是结构化数据还是非结构化数据,海量数据还是少量数据都可以支持存储和计算,就像湖中的多个支流一样,结构化数据、非结构化数据、日志数据和实时数据都流入相同的数据存储结构,并对不同类型的分析进行处理,以指导更好的决策。

综上所述,数据湖并不能完全取代数据仓库。它们有自己的重点和优势,使用场景也不完全相同。在许多企业的实际应用中,更多的是采用两者并存的结构。

这里可以用一个烹饪场景来做一个类比。在过去,当数据仓库时,就像加工原材料一样,如土豆清洗、剥皮、切片,所以直接炒土豆片。在数据湖中,直接存储土豆,这样以后想炒土豆片切片,想炒土豆丝切丝。在增加灵活性的同时,节省了早期处理的成本。

本站部分内容及素材来源于互联网,如有侵权,联系必删!

相关资讯

    暂无相关的数据...