DW DataStage ETL
培训_DataStage介绍
v1.0
广州赛意科技有限公司
深圳项目部
1. DataStage 介绍
Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换 和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库) 目标数据库的集成工具。
DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、 开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要 数据源:
大型主机系统数据库:IMS,DB2,ADABAS,VSAM等
开放系统的关系数据库:Informix,Oracle,Sybase,DB2, SQL Server等 ERP系统:SAP/R3,PeopleSoft系统等
普通文件和复杂文件系统,FTP文件系统,XML等 IIS,Netscape,Apache等Web 服务器系统 Outlook等Email系统
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。 其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
使用DataStage可以进行:
1、 设计JOB用来抽取、整合、聚合、加载和转换数据仓库或数据集市中的数据。
2、 创建和重用元数据和JOB的构成。
3、 创建、设计、开发、运行、调度以及监控JOB。 4、 管理DataStage的运行环境。
2. 工作原理
DataStage使用了Client-server架构,如下所示。
图一、DataState企业版Client-Server架构
如图一所示,DataSage的服务器组件运行在一系列的流行服务器上,如Unix、Windows等。
3. 组件介绍
用户通过四个客户端工具实现DataStage的开发、配置和维护功能。这些工具包括:
3.1 Administrator
Administrator:用来执行管理任务,如建立DataStage用户、
建立和删除工程以及配置用户权限、环境参数等基本设置。
第一步:登陆Adminstrator
第二步:选择Project
点击按钮进入Project的属性配置
第三步:进入Project的属性配置
点击按钮可进入环境参数定义界面
使用Adminstrator的“Project Properties”工程属性的窗口,可以进行: 1、
在“General”页框中,设置Job监控的一些限制信息和Direct中的其它信息。
定义环境(工程)参数:在“General”页框中,点击“Environment”
按钮即可进入界面,一般是在“User Defined”类别定义数据库名称、用户名称、口令以及ETL文件路径等参数。
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库DW DataStage ETL 培训 - DataStage介绍在线全文阅读。
相关推荐: