第九章 阿里巴巴数据整合及管理体系
发布时间:2022-09-24 11:27:20 所属栏目:大数据 来源:
导读: OneData体系和实施方法论
阿里大数据建设方法论的核心是:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。这一体系包含产品和方法论。
定位及价值
阿里大数据建设方法论的核心是:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。这一体系包含产品和方法论。
定位及价值
|
OneData体系和实施方法论 阿里大数据建设方法论的核心是:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。这一体系包含产品和方法论。 定位及价值 建设统一的、规范化的数据接入层(ODS)和数据中间层(DWD-数仓细节 和 DWS-数仓服务)。标准、共享、服务。 体系架构 业务板块对应不同的电商体系中不同的业务。 规范定义以维度建模作为理论基础,构建总线矩阵,划分和定义数据域(某项目中的主题域)、业务过程、维度、度量/原子指标、修饰类型、修饰词、时间周期、派生指标。 命名规范样例 对应电网是不同的主题域。 名词解释: 数据域:面向业务分析,将业务过程或者维度进行抽象的集合。业务过程可以概括为不可拆分的行为事件,业务过程之下可以定义指标;维度是指度量的环境,如买家下单事件,买家是维度。数据域是需要抽象提炼,并长期维护和更新的,但不能轻易变动。(对应某项目的主题域) 业务过程:企业的业务活动事件,如下单、支付、退款等。业务过程是不可拆分的行为事件。 时间周期:明确数据统计的时间范围或时间点。 修饰类型:修饰词的一种抽象划分。如终端类型、用户类型。 修饰词:隶属于修饰类型,如某类型用户、某类型终端等。 度量/原子指标:具有明确含义,在业务中不可拆分的指标。如支付金额。 维度:维度是度量的环境,反映业务的一类属性,这类属性的集合构成一个维度(实体对象)。如地理纬度、时间维度。 维度属性:维度属性隶属于一个维度,如地理维度里面的省市区,时间维度里面的年月日。 派生指标:对原子指标业务统计范围的圈定。 指标体系 主要解读原子指标、派生指标、修饰类型、修饰词、时间周期。 派生指标由原子指标、时间周期修饰词、若干其他修饰词组合得到。 事务型指标,对业务活动进行衡量的指标,如新发商品数、重发商品数、新增注册用户数、订单支付金额等。 存量型指标,对实体对象的(如商品、会员)某些状态的统计。如商品总数、注册会员总数。 复合型指标,在事务型指标和存量型指标的基础上复合而成的。例如浏览UV-下单买家数转化率,有些需要创建新原子指标,有些则可以在事务型或存量型原子指标的基础上增加修饰词的到派生指标。 复合型指标的规则:比率型,如转化率;比例型,如百分比、占比;变化量型,不创建原子指标而增加修饰词,如“最近1天订单支付金额上一天变化量”,其中原子指标是“订单支付金额”,修饰类型为“统计方法”,修饰词为“上一天变化量”;变化率型,创建原子指标,如“最近7天海外买家支付金额上七天变化率”,原子指标为“支付金额变化率”,修饰类型为“买家地域”,修饰词为“海外买家”;统计型(均值、分位数),不创建原子指标,增加修饰词,在此基础上创建派生指标,在修饰类型“统计方法”下增加修饰词,如日均、人均、行业平均、商品平均、90分位数、70分位数等,如“自然月日均UV”,原子指标为“UV”,修饰类型为“统计方法”,修饰词为“日均”;排名型,创建原子指标,一般为top_xxx_xxx,有时同时使用rank,如:统计方法(升序/降序),排名名词(TOP10),排名范围(行业、省份等),根据什么排序(搜索次数、PV等);对象集合型,数据产品和应用展现时,将对象以K-V对的方式存在一个字段中,方便展现;其它规则,上下层级派生指标同时存在(如最近一天支付金额和最近一天PC端支付金额)建议使用前者而后者作为维度属性放在物理表中体现,父子关系原子指标同时存在(PV/IPV商品详情页PV)优先选用子原子指标。 模型设计 阿里数据公共层设计理念遵循维度建模思想。《Star Schema-The Complete Reference》和《The Data Warehouse Toolkit-The Definitive Guide to Dimensional Modeling》。主要以维度建模理论为基础,基于维度数据模型总线架构,构建一致性的维度和事实。 ODS操作数据层,将数据几乎无处理地存放在数据仓库系统中。同步,结构化数据增量或全量同步到MaxCompute。结构化,非结构化(日志)数据结构化处理并存储到MaxCompute。累积历史、清洗,根据数据业务需求保存、清洗数据。 CDM公共维度模型层,包括DWD明细数据层和汇总数据层DWS。采用维度模型方法作为理论基础,更多地采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性;在汇总数据层,加强指标的维度退化,采取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。组合相关和相似数据,采用明细宽表,复用关联计算,减少数据扫描;公共指标统一加工,命名规范化、口径一致、算法统一,建立逻辑汇总宽表;建立一致性维度,降低计算口径、算法不统一的风险。 ADS应用数据层,存放数据产品个性化的统计指标数据。 数据调用服务优先使用公共维度模型层(CDM)数据,当公共层没有数据时,需评估是否需要创建公共层数据,不需要建设公共层时,可直接使用操作数据层(ODS)数据。 基本原则 高内聚和低耦合。业务相近或相关、粒度相同的数据设计为一个逻辑或物理模型;将高概率同时访问的数据放一起,将低概率同时访问的数据分开存储。 核心模型与扩展模型分离。核心模型简洁可维护,扩展模型支持个性化或少量应用需要。扩展模型不能过多地侵入核心模型。 公共处理逻辑下沉及单一。底层公用处理逻辑在底层进行封装与实现。 成本与性能平衡。适当冗余换取查询和刷新性能。 数据可回滚。处理逻辑不变,多次运行数据结果不变。 一致性。相同含义的字段在不同表中统一。 命名清晰可理解。易于理解和使用。 模型实施 业界常用模型实施过程: Kimball,需求分析、高层分析、详细模型、模型审查。 构建模型一般是三个阶段:高层设计时期,定义业务过程维度模型的范围,提供每种星形模式的技术和功能描述;详细模型设计时期,对每个模型添加属性和度量信息;第三个阶段是模型的审查、再设计和验证等工作,最后是产生详细设计文档,提交ETL设计和开发。 高层模型产出目标是高层维度模型图,它是对业务过程中的维表和事实表的图形描述。 详细维度建模过程是为高层模型填补缺失信息,测试模型是否满足业务需求,确保模型完备。确定每个维表和事实表的度量,并确定信息来源的位置、定义,确定属性和度量填入模型的初步业务规则。 模型审查、再设计和验证,召集人员审查验证模型,根据审查结果对详细维度再设计。 提交ETL设计和开发,完成模型详细设计文档,提交ETL开发人员,进入ETL设计和开发阶段,由ETL人员完成物理模型的设计和开发。 ——Kimball《数据仓库工具箱》 Inmon模型设计过程,ERD(Entity Relationship Diagram,实体关系图)层、DIS(Data Item Set,数据项集)层、物理层(Physical Model,物理模型)。 ——Inmon的《Building the Data Warehouse》 其它模型实施过程大数据架构标准,实践中经常用到如下数据仓库模型层次划分,与以上经典模型有一定的相似性,但不涉及具体的模型表达。 业务建模。生成业务模型,解决业务层面的分解和程序化。 领域建模。对业务模型进行抽象处理,生成领域概念模型。 逻辑建模。将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。 物理建模。解决逻辑模型对不同关系数据库的物理化以及性能等一些具体的技术问题。 OneData实施过程: 数据调研:业务调研,对业务系统的业务进行了解;需求分析,收集分析运营人员对数据或者报表的需求。 数据域划分:面向业务分析,将业务过程或维度进行抽象地集合。 构建总线矩阵与明确统计指标:明确业务过程所属的数据域,明确业务过程与维度的关系;明确原子指标与派生指标。 核心功能:规范定义,构建一致性维度及维度属性,构建一致性度量及指标;明细模型设计,构建一致性维表(DIM),构建一致性事实表(DWD);汇总模型设计,构建共用汇总模型(DWS),构建应用汇总模型(AWS)。 代码开发,数据业务逻辑处理。 部署运维,生成ETL任务,运行状态监控。 某项目重点工作就是:构建总线矩阵、物理模型设计(DIM、DWD、DWS)、ETL。 实施过程是高度迭代和动态的过程,采用螺旋式实施方法。在总体架构设计完成后,开始根据数据域(主题域)进行迭代式模型设计和评审。在架构设计、规范定义和模型设计等模型实施过程中,都会引入评审机制,以确保模型实施过程的正确性。 (编辑:草根网_连云港站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐


浙公网安备 33038102330470号