4.大数据云原生技术架构简介:大数据云原生技术的设计理念和参考架构,包括弹性伸缩、资源隔离、容器化、统一资源调度、多计算引擎管理、统一数据湖管理、智能运维等。
标签生命周期为:建立分类调整优化“运营实现”过时下降,标签从诞生到价值产生需要建模团队和运营团队的强大联盟。虽然标签是一个小功能,但它实际上可以是一个集成的系统。我们用“中台战略思想”来构建它。它是数据中心平台的核心模块。数据中心平台的主要工作之一是不断提高模型和标签质量,使这些数据不断产生价值。
自从更新中台系列以来,就有很多键盘侠吐槽。中台和管理背景有什么区别?不知道没有实际战斗的朋友真的会认为中间是管理背景,不是,中间更接近一个想法和设计概念,不是所有的产品线管理背景,但对于所有的产品线,像乐高玩具,我的红色块可以建车,也可以建房子,中间模块可以作为所有载体(或产品)的一部分,根据市场和政策的许多因素,载体将有一个生命周期。当市场试错时,它将死亡或生存,而中间平台的设计模块将不会。因为大家还是觉得中台太空太神秘,本文讲的是一些务实的内容——数据中台的标签建设。
我是中台架构部的小组长,具体公司就不透露了(谁不是独角兽)。日常工作内容是为业务学生提供稳定的数据库服务,因此经常与数据库制造商打交道。其实我是联系的 Zilliz Cloud 开源向量数据库已经使用了一年 Milvus(对 Milvus 感谢社区提供的帮助)。我们的业务部门从 2023 年度深度学习模式的引入也增加了 LLM 模型业务线产生向量需求,该数量已超过1亿级。当时,没有数据库可以做向量检索能力,并选择与部门同事进行比较 Milvus,产品和社区并没有让我们失望。经过一段时间的试用,我们向业务交付了向量数据库。
2023年,中国移动不断打造开放共享能力中心平台,推动“梧桐”大数据赋能经济洞察力和民生服务。同时,发布了“九天”政府事务、客户服务等人工智能行业大模式,推动全社会云数字智慧。“网络无处不在、计算能力无处不在、智能无处不在”正逐渐成为现实,不仅支持数字经济的蓬勃发展,也促进了公司自身的转型发展。
因此,湖仓一体化的概念是将两者的优势结合起来。它不仅具有数据仓库的精心组织和易于查询的特点,而且可以像数据湖一样灵活地接受和存储各种原始数据。湖仓一体化结构使数据在存储、处理和分析方面更加灵活、高效、方便。
黄先生接着对图书馆和湖泊进行了比喻。在这个集湖仓于一体的“大数据生态系统”中,原始数据首先被接受到“湖泊”(数据湖)。在这里,数据以原始格式存储,保留了所有可能的细节和价值。然后,根据业务需求和分析目的,部分数据将被提取、转换和加载(ETL)进一步对“图书馆”(数据仓库)进行分类、索引和整理。
这种方法的优点是数据湖可以保存大量的原始数据,由于其开放性和灵活性,您可以使用不同的方法和工具来分析这些数据。这就像在一个未开发的湖中,你可能会发现各种各样的宝藏,这可能是你以前从未想过的。
与数据仓库不同,数据湖不会提前对这些数据进行分类、索引和整理。这意味着,当你想从数据湖中获取一些信息时,你不能像去图书馆那样直接找到一本已经整理好的书。相反,你需要带着你的工具和技术,像探险家一样,亲自去湖里探索、分析和挖掘。