数据存储架构的历史,从数据仓库到数据湖 分析和人工智能/机器学习是否应该被视为两个独立的市场,以及使用SQL 讨论适应人工智能/机器学习 实时和流数据的用例,以及延迟讨论 设计现代数据堆栈的最佳实践和对数据架构未来的预测
最重要的问题之一是这些架构类型是否会融合。一年后再看,融合的情况似乎没有发生。特别是,分析和业务生态系统正在蓬勃发展。Snowflake等云数据仓库增长迅速,主要集中在SQL用户和商业智能用户场景上。其他技术的使用也在加速,数据湖公司如Databricks的客户增长率是前所未有的。我们采访的许多数据团队都表示,数据技术栈中的异质性将共存。
然而,随着企业业务的开放,传统的数据库妄想不能很好地满足当今企业的开放要求,然后产生了对数据仓库和数据湖的意见,特别是数据湖、湖仓库集成等新术语是近年来行业的热门话题。
?数据湖/数据仓库:通过Cheetah提供的海量数据集成和计算能力,用户可以通过使用工具快速完成数据湖和数据仓库的建设。帮助数据管理、运维人员快速稳定地完成海量数据集成,实现指标高效计算。
利用当前市场上的HTAP作为大型企业的数据仓库或非结构化数据的数据湖几乎是不现实的。在性能、可扩展性或特定用例(如时间序列数据、图形、搜索等)方面,特定用途的数据库可以更好地满足不同的业务目标。(HTAP在某些地方仍然存在缺点,不包括特殊用途的数据库性能)
有人说数据湖的核心问题是数据太多,缺乏治理,导致数据沼泽。我说你太危言耸听了。数据湖的核心问题是湖水太少。数据治理首先要解决的是是是否有水,是否可以引入水。
与数据仓库不同,数据仓库在处理数据前应进行数据梳理、定义数据结构、数据清洗,数据湖无论“3721”连接数据源将原始数据“锅”,为后续数据湖机器学习、数据挖掘能力带来无限的可能性!数据湖在灵活性方面具有天然优势。由于模型范式的要求,传统的数字仓库不能随意改变业务。变化涉及到底层数据的各种变化,导致传统数字仓库无法支持业务的变化。