与数据仓库相比,您可以在将数据提交到数据仓库之前进行数据转换和清理。在数据湖中,您可以快速获取数据,并在人们访问时立即准备数据。数据湖支持实时访问数据和灵活分析,以了解业务正在发生的操作报告和业务监控。
?湖上仓库建设:企业数据首先进入数据湖统一存储,湖直接性能不足,此时可采用湖上仓库建设方案,通过查询性能要求高的部分 ETL 进口到新的数据仓库提供服务。
数据湖允许企业在成本效益高、灵活的环境中存储所有数据,并提供必要的处理、持久性和分析服务,以找到新的商业洞察力。数据湖存储和管理结构化和非结构化数据,并提供大量来自多个源的高度多样化数据。
考虑在不同的桶中组织您的湖泊,使用奖牌结构(铜、银、金)或其他分区逻辑,根据其质量和丰富程度隔离数据,为消费者阅读数据,实施细粒度安全控制,并在不同层次应用不同的生命周期管理策略。 为了优化大规模存储湖数据的成本,考虑使用不同的对象存储层和生命周期策略。 考虑使用客户管理的密钥,通过金库服务实现对象存储加密钥的完全控制。 通过设置存储桶复制到另一个区域,考虑使用对象存储复制支持业务连续性计划。由于对象存储高度耐用,同一对象可以在单个区域维护多个副本,以便在同一区域恢复桶,因此不需要桶复制。
批处理是一种在数据湖房间中转换大规模数据集的技术。该方法利用我们的云基础设施本地服务,与云对象存储无缝集成,创建数据聚合、丰富、数据仓库输入、大规模机器学习和人工智能数据使用的精选数据。