77范文网 - 专业文章范例文档资料分享平台

大数据治理体系(8)

来源:网络收集 时间:2018-12-04 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

Configured Capacity DFS Used Non DFS Used DFS Remaining DFS Used% DFS Remaining% Configured Cache Capacity Cache Used Cache Remaining Cache Used% Cache Remaining% Last contact 配置容量 已用容量 非DFS使用容量 剩余容量 已用容量 使用率 配置缓存容量 缓存使用量 缓存剩余量 缓存使用率 缓存剩余率 最近检查时间 double double double double double double double double double double double date 小数点后4位 小数点后4位 小数点后4位 小数点后4位 6.2.3.2. 数据节点类

为支持大数据平台下文件、目录、Hbase、Hive相关元数据的集中存储,本期规范将CWM核心元模型的Table、Column、View类进行扩展,同时新增model.hadoop.hdfs模型包,里边包含目录(Directory)和文件(File)两个实体及相关属性。关于经分系统核心元模型及参考表,元模型标准CWM的相关定义,请参考《中国移动省级NG2-BASS(v5.0)技术规范核心元模型规范》中的相关章节描述。修订内容如下: 1、需要修改的元模型包括: ? Table类增加以下属性:

? location: String

说明:存储大数据平台上该表对应的HDFS文件目录信息。 ? createTime: String

说明:该表的创建时间。 ? creator: String

说明:该表的创建人。

? Column类增加以下属性:

? partitionColumnId: String

30

说明:Hive表对应的分区字段编号。

? View类增加以下属性:

? createTime: String

说明:该视图的创建时间。 ? creator: String

说明:该视图的创建人。 2、需要增加的元模型包括: ? ColumnFamily类有如下属性:

? name: String

说明:Hbase对应的列簇名称。

? File类有如下属性:

? name: String

说明:文件名称。 ? path: String

说明:文件路径信息。 ? compressorType: String

说明:压缩类型。 ? size: String

说明:文件大小。 ? type: String

说明:文件类型。 ? permission: String

说明:权限。 ? owner: String

说明:所有者。 ? group: String

说明:所属用户组。

? Directory类有如下属性:

? name: String

说明:目录名称。

31

? path: String

说明:路径信息。 ? permission: String

说明:权限。 ? owner: String

说明:所有者。 ? group: String

说明:所属用户组。

3、需要增加的元模型关系包括:

? 添加TableToDirectory关系; ? 添加ColumnFamilyToDirecitry关系。

6.2.4. 元数据运维

在前期元数据运行维护要求的基础上,满足本期大数据平台的数据治理要求,对元数据的维护提出以下补充要求:

? 强化元数据管理制度要求,每个元数据均需将所属部门、责任人信息补充完整; ? 为加强数据安全及隐私保护,每个元数据需提供对应的数据隐私级别信息; ? 细化元数据分类,在前期技术、业务、管理大分类的基础上,增加从系统所属部门、

系统及模块角度标记每个元数据;

? 严控元数据版本,对于每次变更需详细记录变更原因、时间、人员等关键信息; ? 细化元数据权限,对于不同的部门、人员、角色,仅授予工作所需的最小权限,对

于权限变化要严格审批。

6.2.5. 本期重点建设内容

基于大数据平台“逻辑集中、物理分散”的最终目标原则,元数据管理的建设也将按此目标分步实现。在本期规范中,强调元数据的运维管理及产品化支撑,元数据产品要简单易用、用户体验不断提升。主要建设以下内容:

1、 元数据之家产品。基于大数据平台数据治理及改善用户体验要求,建设一个方便内

外部用户使用的元数据产品。主要包括以下模块:

32

? 集中分类展现; ? 多样化检索; ? 详情多样化展示; ? 收藏与评价; ? 统计分析; ? 知识库; ? 权限审批。

2、 元数据应用产品:

? 查询类APP,面向业务人员及大数据平台分析人员。

3、 辅助开发产品:

? 团结帮API管理产品,对OpenAPI进行元数据结构化描述,用于对大数据

平台开放API进行注册、发布、订阅及使用管理。

6.3. 数据质量管理

6.3.1. 与传统经营分析系统的区别

数据质量为数据的“适用性(fitness for use)”,即数据满足使用需要的合适程度。数据质量通过完整性、一致性、准确性、及时性、合法性等多类维度对数据进行度量。

在大数据平台上,数据质量为其提供洁净、结构清晰的数据,是大数据平台开发数据产品、提供数据服务、发挥大数据价值的必要前提,是企业数据资产管理的关键因素。

大数据平台数据质量和传统经营分析系统的区别如表6-5所示。

表6-5大数据平台数据质量和传统经营分析系统的区别

监控数据的类型 数据仓库的类型 大数据平台数据质量 可以对非/半结构化数据中指定信息项进行监控,例如Gn日志中的终端信息等 支持传统数据仓库、MPP和Hadoop。 经营分析系统数据质量 仅监控结构化数据 仅支持传统数据仓库。 使用者 数据资产的所有者及其授权用户、数据应用开发者、租户等将成为大数据平台数据质量经分运维人员和数据质量管理员为主要使用者,负责将业务33

管理模块的主要使用者,负责监控规则的设置和监控结果的处理。 运维工作 运维人员主要负责保障数据质量功能模块的正常运行和规则库的扩充,规则配置、执行和结果处理等实际工作由用户自行负责。 人员的需求在数据质量模块上实现。 数据质量运维人员的工作范畴涵盖数据质量监控的全流程,包括采集、规则配置、告警、结果查看和处理。 用户仅能在结果出来后才能进行监控。 监控模式 由事后监控向事中、事后监控相结合转化,用户/应用设置数据质量监控规则后,可以在计算执行过程中调用数据质量监控作业,无需等待结果出来后再进行监控。 数据质量功能模块是大数据平台接收源数据的屏障,保障所有接收的源数据均符合大数据平台的要求;数据质量还是大数据平台数据资产评估的重要组成部分,定期运行平台数据资产的相关质量规则,为数据资产评估提供输入。 质量保障 未明确规定数据质量为其它功能模块提供服务。 6.3.2. 范围和原则

大数据平台数据质量的管理范畴,涵盖从源数据接入大数据平台到应用输出的全过程。 大数据平台数据质量管理的原则包括:

? 以用户需求为中心:数据质量模块旨在为大数据平台所有用户提供服务,平台功能

的增加和增强始终围绕着用户的实际使用需求;界面设计需要充分考虑不同类型用户的需求,既要满足业务用户简单易懂的需要,也要允许技术用户实现个性化的监控需求。

? 全员参与:大数据平台的用户包括数据提供者、数据开发者、数据管理者、数据消

费者,均要参与平台的数据质量管理;

? 过程控制:数据质量监控不仅是在结果输出后,还包括对计算过程中质量监控,一

旦发现问题,可以及时终止进程;

? 持续改进:数据质量的提升是一个持续的过程,需要定期对发现的问题进行评估,

提出改进意见;也包括数据质量模块本身功能的提升和规则库的完善。

6.3.3. 与其它功能模块的关系

6.3.3.1. 与元数据模块的关系

34

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库大数据治理体系(8)在线全文阅读。

大数据治理体系(8).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/337314.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: