数据仓库
使数据仓库能够不断满足分析需求,通常这一反复循环过程需要经过较长时间才能完成
(&)#*
想,文章的数据仓库设计方法分为以下步骤(重点讨论概念模型设计和逻辑数据模型设计):
。这一观点被理论界和工程界普遍
(+*
接受。其实反馈循环过程在数据库设计过程也被提倡。
图.
图&
数据驱动方法
图!
需求驱动方法
数据驱动和需求驱动结合
步骤&:了解用户需求,发现分析型业务问题
数据仓库设计时除上述两个独有的特点之外,其设计思想与数据库的设计思想有很多相似之处,主要体现在以下方面:
无论是数据库设计或是数据仓库设计,都有“自顶向(&)
下”和“自底向上”两种设计思想,虽然数据仓库设计和数据库设计它们的具体含义不尽相同,但思想却是一致的
(,*(-*
这一阶段基本与数据库设计的第一阶段一样,仅调查对象和业务问题的不同,在数据仓库设计时,调查对象主要是管理决策层,获得的业务问题是管理决策层的分析型问题,并对业务问题进行排序,选择高优先级业务问题,界定系统边界。
应用系统及其数据的调研与分析步骤!:
此阶段的目标是为数据仓库系统发现运行稳定、数据可靠的源系统,并考察其数据状况,主要任务包括对边界内的应用系统进行调研和分析、制定高层应用系统流程图、识别主要的应用系统及其主要内容、源数据物理特征分析、分析主要应用系统的数据质量、形成应用系统数据分析报告等。这里着重介绍源数据物理特征分析,采用表&内容进行源数据物理特征分析。分析物理特征的主要目的是为了帮助逻辑模型设计时的粒度划分,因为粒度划分参考的一个重要指标是估算出的数据仓而行数与数据库原始数据密切相关。库中表的记录行数(&*(!*,
表&
系统名称数据集名称
索引项
存储介质
记录字节数
记录行数
数据规模
;
无论是数据库设计或是数据仓库设计,也不管是数据(!)
驱动或是业务驱动,都是从概念模型开始,然后根据概念模型设计出逻辑模型,最后根据具体的物理实现和性能要求考虑数据仓库的物理模型设计
(&)-*
;
(在概念模型设计时,二者都采用“实体—联系”模型,不.)
过数据仓库设计时“实体”指的是主题,与数据库数据模型中的实体相比,它是一种更抽象的实体;
逻辑模型设计一般都要满足第三范式;(#)
(为了提高系统的物理性能,要考虑分区问题。+)
就设计思想而言,笔者认为二者存在相似之处是合理的。这是因为,无论是数据仓库设计或是数据库设计,二者设计出的数据模型都是关系模型。
当然,根据前面的论述可知,由于数据仓库不同于数据库,二者数据模型自然存在不同之处,主要归结为两点:数据仓库的数据模型扩充了码结构,码结构中包含时间元素;数据仓库的数据模型中不包含纯操作型数据,但包含一些导出数据,如要进行粒度考虑,这些是数据库设计时不用考虑的问题。
源数据物理特征分析表
步骤.:确定主题域,建立概念模型
并结合步骤!此阶段利用步骤&得到的分析型业务需求,
的数据分析结果,确定数据仓库主题,并建立主题之间的联系。由于主题是比较抽象的实体,所以确定主题是数据仓库设计的难点之一,需要技术专家、业务专家和企业信息主管共同配合,才能对业务问题进行高度抽象和提炼,建立满足企业需要的概念模型。数据仓库的概念模型最终形式是实体和实体之间的联完全可以参考数据库设系,即/0模型。所以设计概念模型时,计思想,根据具体情况采用集中式模式设计法或视图集成设计以及特化和泛化过程等(+*。法(-*,
步骤#:进行源数据业务特征分析
分析源数据业务特征的目的是为了帮助数据仓库逻辑数可以找出与据模型设计,源数据业务特征分析表如表!所示,主题对应的数据集,从而在逻辑模型设计时启发表和属性的确定。
表!
系统名称
主题
数据集名称
主题&
主题!
.基于数据库设计思想的一种数据仓库设计方法
根据前面的讨论可知,既然数据仓库的设计思想和数据库
的设计思想存在相似之处,并且最终体现的结果基本一样,而数据库设计理论已比较成熟,因此笔者考虑把数据库设计的基本思想运用到数据仓库设计的过程中,尤其是概念模型和逻辑模型设计阶段充分利用数据库设计的思想。根据这几年的理论研究和实践证明,利用这种方法可以大大节约数据仓库设计时间,提高设计效率。
在讲述这种数据仓库设计方法之前,首先谈谈数据仓库设计的原则,即坚持数据驱动和需求驱动相结合的原则,如图.所示,因为随着人们对数据仓库理解的不断加深,管理决策者对数据仓库建设基本上可以提出一些明确的需求,所以进行数据仓库设计时,只有将现有数据基础和决策层的分析需求同等重视,才能设计比较成功的数据仓库。
源数据业务特征分析表
$$$
主题’
(页)
!!""#$%计算机工程与应用
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库数据仓库设计的一种有效方法(2)在线全文阅读。
相关推荐: