在一般的数据仓库应用系统中,根据系统体系结构的不同,数据仓库设计的内容和范围不尽相同,并且设计方法也不尽相同。本文将说明两个体系结构上的差异以及这种差异造成的设计方法的不同,并且重点介绍带有ODS的体系结构中数据仓库的设计方法。

数据仓库的规划指导思想中,数据仓库的概念界说是非常重要的,数据仓库概念规矩了数据仓库所具有的几个根本特性,这些特性也正是对数据仓库规划成果进行查验的重要依据。

带有ODS的体系结构中数据仓库的规划办法(数据仓库ods层设计)  ODS 数据仓库 粒度 维 度量 主题 第1张

依据Bill.Inmon的界说,“数据仓库是面向主题的、集成的、安稳的、随时刻改变的,首要用于决议计划支撑的数据库体系”。

ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具有数据仓库的部分特征和OLTP体系的部分特征,它是“面向主题的、集成的、当时或挨近当时的、不断改变的”数据。

一般在带有ODS的体系体系结构中,ODS都规划为如下几个效果:

1.在事务体系和数据仓库之间构成一个隔离层

一般的数据仓库使用体系都具有非常复杂的数据来历,这些数据寄存在不同的地理位置、不同的数据库、不同的使用之中,从这些事务体系对数据进行抽取并不是一件简单的事。因而,ODS用于寄存从事务体系直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑联络上都与事务体系根本坚持共同,因而在抽取进程中极大下降了数据转化的复杂性,而首要重视数据抽取的接口、数据量巨细、抽取办法等方面的问题。

2.搬运一部分事务体系细节查询的功用

在数据仓库树立之前,许多的报表、剖析是由事务体系直接支撑的,在一些比较复杂的报表生成进程中,对事务体系的运转发生相当大的压力。ODS的数据从粒度、安排办法等各个方面都坚持了与事务体系的共同,那么原因由事务体系发生的报表、细节数据的查询天然可以从ODS中进行,然后下降事务体系的查询压力。

3.完结数据仓库中不能完结的一些功用

一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据,并不存储每笔买卖发生的细节数据,可是在某些特别的使用中,或许需求对买卖细节数据进行查询,这时就需求把细节数据查询的功用搬运到ODS来完结,而且ODS的数据模型依照面向主题的办法进行存储,可以方便地支撑多剖析等查询功用文章来历:我国公务网 2005-6-20 1:51:55。

在一个没有ODS层的数据仓库使用体系体系结构中,数据仓库中存储的数据粒度是依据需求而确认的,但一般来说,最为细节的事务数据也是需求保存的,实际上也就相当于ODS,但与ODS所不同的是,这时的细节数据不是“当时、不断改变的”数据,而是“前史的,不再改变的”数据。

规划办法

在数据仓库规划办法和信息模型建模办法中,前人的著刁难各种思路和办法都做过许多的研讨和比照,要点会集在ER模型和维模型的比较和使用上。依据咱们的实践经验,ER模型和维模型在数据仓库规划中并非肯定敌对,特别在ODS规划上,从微观的视点来看数据之间的联络,以ER模型最为明晰,但从完成出来的数据结构上看,用维模型愈加符合实际的需求。因而孤登时看ER模型或许维模型都缺少科学客观的精力,需求从详细使用上去考虑怎么使用不同的规划办法,但方针是必定的,便是要可以把企业的数据从微观到微观可以明晰表达,而且可以完成出来。

本文中要点介绍维模型的使用。

#p#

ODS规划攻略

在ODS的概念界说中,现已描绘了ODS的功用和特色,实际上ODS规划的方针便是以这些特色作为依据的。ODS规划与DW规划在着眼点上有所不同,ODS要点考虑事务体系数据是什么姿态的,联络怎么,在事务流程处理的哪个环节,以及数据抽取接口等问题。

***步:数据调研

有关数据调研的内容和要求,在《调研标准》文档中做了详细界说,此处不再重复。

第二步:确认数据规模

确认数据规模实际上是对ODS进行主题区分的进程,这种区分是依据对事务体系的调研的基础上而进行的,并不十分关怀整个数据仓库体系上端使用需求,可是需求把上端使用需求与ODS数据规模进行验证,以确保使用所需的数据都现已从事务体系中抽取出来,而且得到了很好的安排。一般来讲,主题的区分是以事务体系的信息模型为依据的,规划者需求归纳各种事务体系的信息模型,并进行微观的归并,得到企业规模内的高层数据视图,并加以笼统,划定几个逻辑的数据主题规模。在这个阶段,以ER模型表明数据主题联络最为恰当。

第三步:依据数据规模进行进一步的数据剖析和主题界说

在***步中界说出来了企业规模内的高层数据视图,以及所收集到的各种事务体系的材料,在这一步中,需求对大的数据主题进行分化,并进行主题界说,直到每个主题可以直接对应一个主题数据模型停止。在这个阶段,将把***步生成的每个ER图中的实体进行分化,分化的成果仍以ER表明为佳。

第四步:界说主题元素

界说维、衡量、主题、粒度、存储期限

界说维的概念特性:

维称号:称号应该可以明晰表明出这个维的事务意义;

维成员:也便是这个维所代表的详细的数据;

维层次:维成员之间的从属与包括的层次联络,每个层次需求界说称号。

界说衡量的概念特性:

衡量称号:称号应该可以明晰标书这个衡量的事务意义。

界说主题的概念特性:

主题称号和意义:阐明该主题首要包括哪些数据,用于什么剖析;

主题所包括的维和衡量;

主题的现实表,以及现实表的数据。

界说粒度:

主题中现实表的数据粒度阐明,这种粒度可以通过对维的层次束缚加以阐明,也可以通过对现实表数据的事务细节程度进行阐明。

界说存储期限:

主题中现实表中的数据存储周期。

第五步:迭代,归并维、衡量的界说

在ODS中,因数据来自于多个体系,数据主题区分时虽然对数据概念进行了必定程度上的归并,但详细的事务代码所构成的各个维、以及维成员等还需求进一步进行归并,把概念一致的维界说成一个维,不允许同一个维存在不同的实体表明(象不同的事务体系中相同)。

第六步:物理完成

界说每个主题的数据抽取周期、抽取时刻、抽取办法、数据接口,抽取流程和规矩。

物理规划不只是是ODS部分的数据库物理完成,规划数据库参数、操作体系参数、数据存储规划之外,有关数据抽取接口等问题有必要明晰界说。

#p#

DW规划攻略

虽然咱们看到过许多关于“不考虑使用,先树立数据渠道”的说法,但树立一个“***的”东西是不或许的,所以数据仓库的规划有必要参照使用规模、使用类型,例如要考虑到体系用于报表、OLAP、数据开掘的哪些模型等等,不同的使用对数据仓库的规划有不同的要求。

数据仓库是面向主题的、集成的、安稳的、随时刻改变的数据,数据仓库的这几个特征的意义在这里不详细多介绍,但自己要阐明怎么完成这些特性。

在数据仓库的规划中时刻不能忘掉的几个问题列举如下:

1.数据粒度和数据安排

在数据仓库的每个主题,都有必要知道这个主题所限制的维的层次、现实数据的粒度;现实数据存储的期限,“过期”的数据的处理办法。

2.维和衡量的仅有性和共用性

千万不要在不同的主题中界说多个表明同一内容的维,特别关于事务代码类型的维,假如一个事务代码构成了多个维表,那么在元数据保护进程中将困难重重GongWu.Com.Cn 2005-6-20 1:51:55。在整个体系规模内,要不断检视维界说是否仅有,假如有或许,一个维表要尽量被多个主题引证。

3.数据粒度一旦变粗,就要考虑多个主题的交融汇总

在数据仓库中,咱们出于数据安排的规矩、事务的要求、功能的要求,都或许对一个主题的现实数据进行汇总,构成粒度较粗的现实数据,但这时分咱们往往忘掉了粒度变粗的现实数据为终究的用户供给了更微观的数据视图,这种微观的数据视图当然需求进行跨主题的数据交融才干愈加具有使用的价值。

4.不论怎么归并,需求坚持数据之间的联络

在数据仓库中,不同主题的数据之间的物理束缚或许不再存在,但不管这些数据怎么改变,要知道有必要有一些“键”在逻辑上坚持着不同数据之间的联络,这样就可以确保有联络的主题数据之间可以进行汇总以支撑不知道的使用,不然数据仓库的数据是一潭死水,不或许灵敏支撑各种使用的。

数据仓库规划可以自底向上地进行,也便是说从汇总ODS数据下手,逐步过渡到使用主题上面去(也便是说,ODS里边的数据主题域与DW中的剖析主题彻底不是一回事)。咱们依然墨守成规地逐项规划,这样并不是彻底限制规划思路和进程,但可以有用地提示规划者有哪些工作要做。

***步:对ODS中的各个主题的现实数据进行时刻上的汇总

ODS的现实数据是纯细节的买卖数据,进入ODS的***步便是要依照时刻维进行汇总,以完成开端的信息沉积。这种汇总不是只进行一次,而是要拟定下来汇总的等级,比方日汇总信息保存3个月,月汇总信息保存2年,年汇总信息长时刻保存(当然在时刻粒度变粗的一同一般都伴随着其他维粒度的变粗或许放弃),咱们终究必定要界说到何种程度的数据可以在数据仓库中***保存停止的境地。

第二步:依照事务逻辑的规矩,对数据进行归并

把ODS中不同主题中的表明相同事务的数据(来自不同的事务体系)进行归并,例如一般企业的客服体系(Call Center)都受理一部分事务,而这些事务受理与在营业厅或出售店的受理是相同的,因而这类数据要归并到一同。

第三步:把包括细节过多的买卖记载进行拆分

现实上,一个买卖记载所包括的信息内容非常丰富,往往逾越了某个人或部分的剖析需求,但不同的人有不同的重视点,因而为进步功能起见,咱们需求把一个长记载包括的信息进行剖析、分化、汇总。例如在电信企业中,通过二次批价后的通话详单包括多种信息,通过剖析,它包括网络信息、事务类型信息、时刻信息、地理信息、费用信息这样几个类别的信息,而每一类信息都由几个字段来进行记载。这些不同类别的信息是很少有人都一同关怀的,一般来说网管部分关怀网络信息,商场部分关怀事务类型信息,而时刻信息和地理信息恰是一切部分都需求的。依照这样的状况,咱们把一条话单依照信息内容进行拆分,拆分后进行汇总归并,以支撑不同部分的剖析要求。当然,关于数据开掘使用,或许一同关怀一切的信息以开掘不同信息之间的联络,但这种状况一则很少,二则真实的数据开掘更多的时分依赖于买卖细节数据,也便是说,关于专题问题的研讨可以从ODS中进行数据的再次处理。

第四步:汇总、再汇总

汇总的问题决不只是是为了进步功能而做的工作(当然汇总可以有用进步功能),但汇总一同意味着更高程度的归纳,在这个进程中,咱们会发现与ODS体系规划进程相反,咱们从细节走向了微观,在ODS中咱们开端确认了企业信息模型,对企业信息模型进行开端分化,再分化、再分化,得到了一个个的主题;在数据仓库中,咱们从一个个的主题开端,归纳、再归纳,咱们沿着与ODS相反的方向,走向了企业的微观数据视图。现实上在DW规划中,汇总、归纳的***方针,是要在***把多个主题汇总成为一个大的主题,而这个主题所包括的维度和衡量便是这个企业运转的命脉目标,是企业老板所最为重视的那几个目标。

【修改引荐】

  1. 嵌入式数据库的现状和未来
  2. ETL和EAI之间的联络与差异
  3. 走近数据库前沿技术——集群
  4. 数据仓库及其体系结构建造
  5. 数据仓库中现实表的水平分区
  6. SQL Server 2008新特性之数据仓库可扩展性
转载请说明出处
知优网 » 带有ODS的体系结构中数据仓库的规划办法(数据仓库ods层设计)

发表评论

您需要后才能发表评论