数仓名词解释
一、常用数仓分层名词
ODS
全称:Operation Data Store
中文:原始数据层
简介:
- 原始数据层,存放原始数据,直接加载原始日志,数据。数据保存原貌不做处理,起到备份数据的作用。 数据采用压缩,减少磁盘存储空间(例如:原始数据100G,可以压缩到10G左右,LZO) 创建分区表,防止后续的全表扫描
DWD
全称:Data Warehouse Detail
中文:明细数据层
简介:
- 对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据),维度退化,脱敏等。 需构建维度模型,一般采用星型模型,呈现的状态一般为星座模型。
DWS
全称:Data Warehouse Service(Summary)
中文:数据服务层
简介:
- 以DWD为基础,按天进行轻度汇总。 统计各个主题对象的当天行为,服务于DWT层的主题宽表,以及一些业务明细数据,应对特殊需求(例如,购买行为,统计商品复购率)
DWT
全称:Data Warehouse Topic
中文:数据主体层
简介:
- 以DWS为基础,按主题进行汇总。 以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建主题对象的全量宽表。
ADS
全称:Application Data Store
中文:数据应用层
简介:
- 为各种报表提供数据
二、其他数仓分层名词
DWB
全称:Data Warehouse Base
中文:数据基础层
简介:
存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据层,一般是宽表。用于提供后续的业务查询,OLAP分析,数据分发等。
DWM
全称:Data WareHouse Middle
中文:数据中间层
简介:
该层会在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。
直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。
DIM
全称: Dimension
中文:数据维度层
简介:
高基数维度数据:一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。
低基数维度数据:一般是配置表,比如枚举值对应的中文含义,或者日期维表。数据量可能是个位数或者几千几万。
APP
全称:Application
中文: 数据应用层
简介:
- 主要是提供给数据产品和数据分析使用的数据,一般会存放在 ES、PostgreSql、Redis等系统中供线上系统使用,也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用。比如我们经常说的报表数据,一般就放在这里。
数仓名词解释
https://blog.pangcy.cn/2021/08/31/数据库相关/数据库理论/数仓名词解释/