离线数仓分层

news/2024/6/18 2:11:41 标签: 数据仓库, 数据库, 数据挖掘

一、数仓为什么要分层

1、清晰数据结构:数仓每一层都有对应的作用,方便在使用时更好定位与了解

2、数据血缘追踪:清晰知道表/任务上下游,方便排查问题,知道下游哪个模块在使用,提升开发效率及后期管理维护

3、减少重复开发:完善数仓好中间层,减少后期不必要的开发,从而减少资源消耗,保障口径、数据统一

4、把复杂问题简单化:将复杂任务拆解成多个步骤来完成,每一层处理单一步骤,当数据问题出现时候,只需从问题起点开始修复

二、数仓的各层主要职责

**【ODS(接入层)】**全称Operational Data Store
ODS层是最接近数据源的一层,从数据源(api、数据库等)将数据同步数仓中,中间不做任何处理操作

**【DWD(明细层)】**全称Data Warehouse Detail
是数仓明细数据层,对ODS层的数据进行关联,清洗,维度退化(将维度表中维度数据放入明细表中),转换,主题域建设等操作

**【DWM(轻度汇总层)】**全称Data WareHouse Middle
轻度汇总层数据仓库中DWD层和DWS层之间的一个过渡层次,是对DWD层的生产数据进行轻度综合和汇总统计(可以把复杂指标前置处理),提升公共指标的复用性,减少重复加工

**【DWS(汇总层)】**全称Data WareHouse Servce
按照主题域、颗粒度(例如买家、卖家)划分,按照周期粒度、维度聚合形成指标较多的宽表,用于提供后续的业务查询,数据应用,最重要一点需要在DWS层完成指标口径统一及沉淀

**【ADS(应用层)】**全称Applacation data service
按照应用域,颗粒度划分(例如买家、卖家)划分,按照应用主题将对应数据标签补充至应用层,最终形成用户画像及专项应用

三、数仓的数据模型

数据模型指的是数据特征的抽象,通常包括数据结构、数据操作、数据约束

1、【业务模型】
为企业提供一个框架结构,以确保企业的应用系统与企业经常改进的业务流程紧密匹配,它是从纯业务角度对企业进行业务建模,特指某业务具体流程环节例如客服业务-客服评价的数据模型。

2、【概念模型】
对业务模型进行抽象处理成一个个业务概念实体,最常见的就是E-R模型,与具体数据库系统无关,必须转化为逻辑或者物理数据模型才能在数据库系统中实现,概念模型就像是er图记录整体概览,包括了每一步操作,像是大图展示。

3、【物理模型】
面向计算机的,因此与具体的数据库系统、操作系统以及计算机硬件都相关的,是逻辑数据模型在这个物理平台上的物理化,例如存储的元数据信息(表名、字段名、存储信息、路径等等)。


http://www.niftyadmin.cn/n/359559.html

相关文章

SocketException: 由于目标计算机积极拒绝,无法连接。

本文只有解决思路没有具体方法(因为错误不一定是因为这个)。 在做.NETWebService的时候遇到了个问题,这是在用本地提供WebService服务以后出现的错误。 我的解决办法是把连接的服务删了在重连就好了,挺奇怪的。在网上查的方法各式…

Java设计模式七大原则-开放-关闭原则

✨作者:猫十二懿 ❤️‍🔥账号:CSDN 、掘金 、个人博客 、Github 🎉公众号:猫十二懿 开放-关闭原则 1、开闭原则介绍 在Java中的开放-关闭原则(Open-Closed Principle, OCP)是一个重要原则。该…

会话跟踪cookie和session

什么是会话跟踪技术 会话:用户打开浏览器,访问web服务器的资源,会话建立,直到有一方断开连接,会话结束。在一次会话中可能包含多次请求和响应。 会话跟踪:一种维护浏览器状态的方法,服务器需…

Gin中间件的详解 ,用Jwt-go 和 Gin 的安全的登陆的中间件

学习目标: Gin 在不同的group 设置不同的中间件或者过滤器 Gin 的group下的路由上中间件或过滤器 用Jwt-go 和 Gin 的安全的登陆的中间件 学习内容: 1. Gin 在不同的group 设置不同的中间件或者过滤器 Golang 中的 gin 框架允许您在不同的路由组中设置不同的中间件或过滤器…

怎么格式化只读U盘?

用户在格式化期间遇到磁盘只读(写保护)问题是比较常见的。通常,如果你的U盘处于写保护状态,则它便是只读,不允许你删除或修改U盘上的任何文件,以保护U盘的数据安全。如果需要只读u盘怎么格式化的问题&#…

Tomcat配置https协议证书-阿里云,Nginx配置https协议证书-阿里云,Tomcat配置https证书pfx转jks

Tomcat/Nginx配置https协议证书 前言Tomcat配置https协议证书-阿里云方式一 pfx配置证书重启即可 方式二 jkspfx生成jks配置证书重启即可 Nginx配置https协议证书-阿里云实现方式重启即可 其他Tomcat相关配置例子如下nginx配置相关例子如下 前言 阿里云官网:https:…

如何利用自定义指标实现可控弹性伸缩

弹性伸缩是现代应用程序中不可或缺的一部分。随着业务需求的不断变化,应用程序需要能够自动扩展或缩减以应对不同的负载和流量。在Kubernetes集群中,Horizontal Pod Autoscaler(HPA)是一种实现弹性伸缩的重要机制。HPA基于一些指标…

【OpenCV DNN】Flask 视频监控目标检测教程 03

欢迎关注『OpenCV DNN Youcans』系列,持续更新中 【OpenCV DNN】Flask 视频监控目标检测教程 03 3.3 上传本地图片进行人脸检测3.3.1 OpenCV 级联分类器类 cv::CascadeClassifier3.3.2 cvFlask03 项目的构建步骤 本系列从零开始,详细讲解使用 Flask 框架…