除了云存储和处理的创新外,企业还在转向应对大数据多样性、准确性和容量挑战的新数据架构方法。企业不再试图将数据存储集中在需要复杂和耗时的提取、转换和加载过程的数据仓库中,而是正在发展数据湖的概念。数据湖以自己的格式存储结构化、半结构化和非结构化数据集。该方法将数据转换和准备的责任转移给具有不同数据需求的终端用户。数据湖还可以提供数据分析和处理的共享服务。
大数据湖仓库一体化是指将用于存储原始数据的大规模存储(数据湖)与存储处理数据的系统(数据仓库)功能相结合,提供更灵活、更高效的数据处理能力。全闪存分布式存储在此过程中起着关键作用。
数据湖是一个大型存储系统,存储各种格式的原始数据。它不仅支持数据的存储和归档,而且具有较强的处理和分析能力。数据湖的设计理念是使企业能够在单个平台上管理所有数据,并为数据科学和先进分析提供强有力的支持。
这意味着清理库存和客户数据,以确保您可以使用自己的数据操作模型来清楚地知道什么是记录系统。这些都有记录吗?是否有一个良好的数据转换集成层,以实时移动数据或将数据移动到数据湖或数据仓库附近,然后输入这些模型?这些基础层是使用新数字技术的关键。
流式分析为用户、应用程序和设备提供仪表板,实时分析流式数据,结合数据湖房中存储的选择和主要数据,检测感兴趣的模式。 GoldenGate流媒体分析利用复杂的相关模式、丰富的数据和机器学习来处理和分析大规模的实时信息。用户可以通过实时图表、地图和可视化工具探索实时数据,并在不编写代码的情况下构建流式管道。这些管道在可扩展和高可用的集群大数据环境中实施,使用与Oracle连续查询引擎集成的Spark来处理现代企业的关键实时用例。GoldenGate流媒体分析可以利用与Oracle云基础设施大数据服务部署的Spark集群,以高度可扩展和灵活的方式处理流量。
事实上,在人工智能和机器学习的帮助下,企业在不大幅增加客户支持人员的情况下,利用其大数据环境,通过智能聊天机器人和更加个性化的互动,提供更深入的客户支持。这些支持人工智能的系统可以收集和分析大量关于客户和用户的信息,特别是当它们与数据湖战略相结合时,它们可以从许多来源收集广泛的信息。