手把手教你数据仓库建设

时间:2021-10-06 16:46来源:http://www.dpums.com 作者:国产成A人片在线观看视频 点击:

本文转载自微信公多号「数仓宝贝库」,作者范钢 孙玄 。转载本文请有关数仓宝贝库公多号。

前线片面是对数据的采集,然后经过ETL过程,最后存入数据仓库。这片面是经由过程一致办法搜集数据,然而它的建设与数据行使需求无关。由于数据仓库存储的是以前数年的数据,而数据行使需求总是在变。倘若数据行使需求一转折,就必要修改数据仓库的外组织,那么这数年的数据都必须要重新计算,编制就会起终处于一栽相等担心详的状态,维护成本极高。因此,只有数据仓库的建设与数据行使需求无关,才能保证需求变更对数据仓库异国影响,才能让编制安详运走。

后面片面是根据分别的数据分析需求,从数据仓库中获取数据,完善各自的数据分析,将最后的分析效果写入数据集市。数据集市的建设是与各自的数据分析的需求息戚有关的,每次需求变更时,变更的是各自的数据集市,而不是数据仓库。

01多维数据建模

经过前线一系列的ETL过程(什么是ETL?一文掌握ETL设计过程),吾们最后将数据装载到数据仓库中。数据仓库是遵命多维数据模型的思路进走建设的。在多维数据模型中,动态数据就转化为了原形外,静态数据就转化为了维度外。进项发票原形外、销项发票原形外都是原形外,但从其中有关出来了日期维度外、纳税人维度外、税务组织维度外、地域维度外与走业维度外。

多维数据模型的设计有两栽思路:雪花模型与星形模型,如下图所示。

雪花模型与星形模型

左图是雪花模型的设计,它最大的特点是在维度外上还要有关维度外,如在纳税人维度外的基础上还要有关走业维度外。如许设计比较容易理解,但会造成频频的join操作,在海量数据中降矮查询性能。譬如,要对进项发票进走地域的统计,就必要将进项发票原形外与纳税人维度外相有关,再有关税务组织维度外、地域维度外,才能完善,这极大影响了编制性能。因此,为了升迁查询性能,基于空间换时间的思维,吾们又挑出了星形模型。

右图是星形模型的设计,它最大的特点是不会再有维度与维度的有关,而是所有维度外都只与原形外有关。譬如对进项发票进走地域分析,只必要进项发票原形外有关地域维度外就能够了,在海量数据中的性能将得到极大的升迁。

接着,在以上原形外的基础上,还能够从分别的维度与粒度对数据进走汇总,形成聚相符外。譬如,对进项发票原形外遵命走业进走汇总,或者遵命地域进走汇总,形成“进项发票走业聚相符外”与“进项发票地域聚相符外”,等等。

以上的分析都是在“开票主题域”中进走的,但是遵命营业流程,还有“申报主题域”“征收主题域”“稽查主题域”等,如下图所示。如许,数据中台就遵命营业模块划分为了多个主题域,然后在各个主题域进走多维建模,形成数据仓库。但各个主题域能够拥有共同的维度外,如纳税人维度外、税务组织维度外等。

主题域模型

02数据中台的分层

数据中台的建设,除了遵命主题域进走纵向划分,还要通太甚层进走横向划分。数据中台通太甚层,划分为原起数据层(STAGE)、细节数据层(ODS/DWD)、轻度综相符层(MID/DWS)与数据集市层(DM),如下图所示。每一层的数据都存储在Hive数据库中,然后经由过程Schema划分出分别的层次。

数据中台的编制分层

最底层是原起数据层(STAGE)。所有的原起数据都在这边,经由过程Schema进走划分,来自哪个数据来源就存储在哪个Schema中,并且外名与原起库的外名相反。

接着是细节数据层(ODS/DWD),它是经过ETL过程以后导入数据仓库的原形外与维度外。ETL过程的中间一时外存入名为etl的Schema,数据仓库的原形外与维度外存入名为dw的Schema。同时,制定命名规范,原形外以dw_fact_xxx命名,如订单原形外dw_fact_order,维度外以dw_dim_xxx命名,如日期维度外dw_dim_date。

紧接着是轻度综相符层(MID/DWS),它是在原形外的基础上遵命分别维度与粒度形成的聚相符外。聚相符外以dw_agg_xxx命名,如进项发票按纳税人聚相符外dw_agg_jxfp_nsr、进项发票按税务组织聚相符外dw_agg_jxfp_swjg等。

末了,是在数据仓库之上的数据集市层(DM),它经由过程抽取前两层中的原形外与聚相符外的数据,遵命分别的用户需求进走数据分析,末了形成数据效果。数据集市既包括最后效果外,也包括中间效果外。数据集市以dw_dm_xxx命名,如“购车人未缴纳车辆购置税预警”属于“机动车消耗税”分析模块,它必要计算出答免税数据dw_dm_jdcxfs_ms,然后计算出未缴税数据dw_dm_jdcxfs_wjs。大无数通例数据分析就是如许经由过程SparkSQL进走的。

本书摘编自《架构真意:企业级行使架构设计形式论与实践》,经出版方授权发布。

【编辑选举】

双喜临门!神州数码又揽走业新闻化领军企业,数据坦然能力获业界一定 一图胜千言 腾讯位置服务数据可视化JS API重磅升级 如何为你的数据选择正当的流处理器? 阿里云再发力云原生数据库,打造一站式在线数据处理平台 大数据时代下的数据治理
网站分类
相关内容
热点内容
相关站点
友情链接
返回顶部