第二种方法是“仓库外挂湖”,即部分数据存储在数据仓库中,部分存储在数据湖中。当业务应用程序需要查询数据时,将数据放在湖中,并利用数据仓库的能力查询数据湖中的数据。
安大略湖目前的水位和一年中的时间。 渥太华河的流量和一年的时间。 预测了渥太华河的积雪和流量。 摩西桑德斯大坝下游圣劳伦斯河上的水位、流速和冰量。 渥太华河沿岸的水库水位。 其他四大湖的水位(最终输入安大略湖);以及 水温、蒸发率和天气数据。
虽然数据湖和数据仓库可以存储一定容量的数据,但它们都优化了不同的用途。一般来说,数据仓库通常适用于存储月度销售报告、各区域销售跟踪数据或网站流量等商业行为中常见的重复报告和分析数据。数据湖主要是为处理大量大数据而开发的。公司通常可以通过批量传输和/或流式传输将原始数据移动到数据湖,而无需转换。两者是互补的,而不是竞争的,所以企业可能需要同时使用这两种技术。
数据湖为企业从任何系统中提取任何数据提供了一个可伸缩的安全平台,无论数据来自本地、云还是边缘计算系统;以全保真的方式存储任何类型或数量的数据;实时或批处理数据;使用 SQL、Python、R 或任何其他语言、第三方数据或分析应用程序分析数据。
考虑到利益相关者的愿望(每个利益相关者的成本和收入可能不同),确定一年中五大湖的最佳水位。 根据五个湖泊的流入和流出数据,建立保持五个湖泊最佳水位的算法。 了解控制算法对两个控制坝流出量的敏感性。根据2017年的数据,您的新控制措施会给利益相关者带来令人满意或优于当年实际记录的水平吗? 您的算法对环境条件的变化有多敏感(如降水、冬季积雪、冰塞)? 关注你的广泛分析,只有利益相关者和影响安大略湖的因素,因为最近更加关注这个湖的水位管理。
数据链路作为一种全新的范式,与湖的方式、仓的方式有明显的不同。所有数据源都可以写入Starrocks作为统一的数据湖仓入口。在此过程中,如果业务应用希望在湖中或仓库中使用数据,可以通过物化视图能力构建数据模型。这样,原始数据就可以根据物化视图逐步简化,不再需要像以前更新和操作数据时那样的外部工具调度平台来应用。
镜舟科技成立于2022年,致力于在湖仓架构下建立数据分析创新产品,帮助企业提高效率。镜舟分析数据库和湖仓分析引擎是基于Starrocks开发的国内企业级产品。镜舟分析数据库满足客户多维、复杂、实时、高并发的数据分析需求,帮助客户构建数据驱动的新业务和管理模式。