数据湖需要完善的元数据管理能力:包括数据源、数据格式、连接信息、数据Schema、权限管理等能力。 数据湖需要具备完善的数据生命周期管理能力。它不仅可以存储原始数据,还需要保存各种分析和处理的中间结果数据,并完全记录数据的分析和处理过程,以帮助用户完全跟踪任何数据的生成过程。 数据湖需要具备完善的数据获取和数据发布能力。数据湖需要能够支持各种数据源,并从相关数据源中获取全量/增量数据;然后标准化存储。为了满足不同的应用访问需求,数据湖可以将数据推送到合适的存储引擎中。
在存储方面,可以引入丰富的企业存储能力,提高数据的可靠性和安全性,减少存储层的TCO,形成跨云、多站点的统一存储平面,整合数据湖和数据仓库,实现统一存储平面上所有原始数据的存储。所有业务都可以随时进行数据分析,而无需移动数据。
在基本性能方面,亚马逊云拥有强大的“智能湖仓库”系统,集成了数据湖、数据仓库和特殊数据存储,实现了大量复杂数据的流动,并对所有成员的数据访问进行了统一的监督。TCL的全球业务线使用了这个架构。
一、 获得全面的底层数据支持能力。凭借“智能湖仓库”的集成架构,用户可以随时随地获取所需的数据进行分析、特征工程、统计分析或模型培训。同时,企业也可以通过有效的权限管理进行数据安全控制,实现全面的数据安全。与传统架构不同,湖是湖,仓是仓,机器学习是机器学习,分析是分析,每个地方都使用不同的数据库或数据源。
他提醒,不要临时进行数据集成,一个接一个地进行项目,交给数据科学家,授权首席数据官制定数据集成计划,授权首席数据官阅读所有公司数据的权限,并派出最好的员工执行数据集成计划。如果不这样做,建立的每个公共数据存储库,也被称为“数据湖”,将成为一个数据泥潭。
目前,通过“软件产品”,深度演出的智能服务经验已经覆盖了零售、快速消费品、汽车、美容等多个行业 “运营服务”模式大大改善了企业“有数据不会用”、“有数据湖没有业务改进”的局面。
大数据和人工智能是更关键的PaaS能力。例如,华为拥有数据管理部门和人工智能,使能源部门能够负责相关能力的建设。数字化转型的前提是在公司整体层面构建统一的数据湖,确保数据元素的完整性和可信度。