三. 项目目标
实施针对银行的“金融大数据服务平台”项目,通过采集银行内部与外部、静态与动态的各类金融数据,搭建适于大数据存储与分析的Hadoop集群,对金融数据采取合适的预处理方式,利用数据挖掘技术得出隐藏在海量数据后的、有价值的潜在规律,以丰富的可视化模型向客户进行展现,在此基础上实现精准营销、统一广告发布、业务体验优化、客户综合管理、风险控制等金融业务应用。由此,提升金融业务的水平和效率,推进银行业务创新,降低银行管理和运行成本。
本项目的具体技术目标包括:
开发金融数据采集工具:大数据分析需要收集来自银行内部的和外部的、静态的和动态的各种金融数据,为此开发各类金融数据采集工具,如动态采集SDK、日志提取分析工具、外部数据导入工具等。
搭建Hadoop大数据集群:搭建Hadoop大数据集群,是建设“金融大数据服务平台”的基础。利用多台性能较为一般的服务器,组成一套基于HDFS和Map-Reduce机制的集群,并根据需要在其上安装Hive、HBase、Sqoop、ZooKeeper等软件。
实现分析挖掘算法:支持Hadoop的分析挖掘算法,是“金融大数据服务平台”的一个关键组成部分。在利用传统数据挖掘技术的基础上,实现包括抽象的数学算法(如关联算法、分类算法、聚类算法、时序分析算法等),以及在此基础上针对金融业务的专业算法(如客户行为特征模型、效果分析模型等),作为进一步构建抽象模型和金融专业模型的基础。
构建分析挖掘模型:支持Hadoop的分析挖掘模型,是“金融大数据服务平台”的另一关键组成部分。在上一步基础上,快速构建抽象的数学模型(如神经网络模型、事物关联模型等),以及针对金融业务的专业模型(如精准营销模型、广告效果评估模型等)。
实现ETL工具:数据预处理也是“金融大数据服务平台”需要解决的问题之一。利用市场上已有的数据预处理成果,研发一个支持Hadoop的ETL工具,实现包括规范化、数据抽样、数据排序、汇总、指定因变量、属性变换、数据替换、数据降维、数据集拆分、离散化等功能。
实现可视化展现工具:“金融大数据服务平台”上的分析结果将主要采用丰富多彩的可视化形式向用户进行可视化展现。利用市场上已有的相关技术和产品,研发一个可视化展现工具,可以支持:分类树图、视觉聚类图、关联图、序列图、回归图等多种可视化形式。
6
实现金融业务应用:将分析挖掘的结果集成到具体的银行业务系统中,如精准营销系统、统一广告发布平台、业务体验优化系统、客户综合管理系统、风险控制系统等。具体方式既可以是实现某个独立的新业务系统,也可以是在现有系统中实现一个或多个新模块,从而扩充或提升原有的功能。
本项目的具体业务目标包括:
精准营销:综合分析客户行为特征信息和金融业务分类信息,可以得到客户最有可能感兴趣的业务以及业务最有可能的潜在客户群,以此为基础有针对性地开展营销;
统一广告发布:分析广告效果分析信息,可以得到各类型、各渠道的最佳配置或薄弱环节,以此为基础改变广告策略、提升广告效果;
业务体验优化:分析客户业务体验信息、客户流失信息,可以得到客户在各业务、各环节的转化率,分析流失原因,在此基础上改进业务流程、提高服务质量,以提升客户满意度;
客户流失分析:综合分析客户行为特征信息、客户流失信息及其它信息,得到客户的全方面分析结果,在此基础上改进客户关系管理的效率和水平;
风险分析:分析客户属性数据、风险分析数据,可以得到存在较高风险可能的客户群体和业务信息,在此基础上区分特别关注目标、制定预防措施,降低这些客户和业务可能带来的冲击。
四. 技术方案
4.1 总体架构
“金融大数据服务平台”由数据采集层、数据存储层、分析挖掘层和业务应用层组成,总体框架如下图所示:
7
业务应用层精准营销系统统一广告发布系统业务体验优化系统客户流失分析系统风险分析系统?可视化展现、统计分析报表分析挖掘层客户行为特征模型精准营销模型广告效果分析模型业务体验优化模型客户流失分析模型风险分析模型建模、评估Hadoop集群数据存储层?关系数据库数据预处理数据采集层动态采集SDK日志提取分析工具外部数据导入工具其它数据提取工具数据提取、导入数据源传统系统手机银行电子银行?外部数据源
数据采集层:负责从各类数据源中提取、导入数据,主要产品包括:动态采集SDK、日志提取分析工具、外部数据导入工具、其它数据提取工具等。
数据存储层:负责将预处理后的数据进行存储,主要由可进行横向扩展的Hadoop集群构成,另外辅之以关系数据库作数据中转、元数据存储、供某些软件使用等用途。
分析挖掘层:负责金融数据经建模、挖掘、评估和发布,核心是实现两类数据挖掘的算法和模型:一类是抽象的数学算法及模型,另一类是在此基础上针对金融业务的专业算法和
8
模型。
业务应用层:负责将分析挖掘结果的可视化展现形式,集成到相应的金融业务系统中。 另外,在数据采集层和数据存储层之间,由ETL工具负责数据预处理任务;在分析挖掘层和业务应用层之间,由可视化展现工具负责分析挖掘结果的可视化展现任务。
4.2 技术架构
“金融大数据服务平台”的技术架构采用多层次形式,如下图所示:
业务系统1业务系统2业务系统3??业务实现层R图形包,??可视化展现R分析包, SAS, ??分析挖掘算法R分析包, SAS, ??分析挖掘模型分析挖掘层HiveZooKeeperHBaseHDFS + Map-Reduce??关系数据库数据存储层Kettle, ??数据抽取、转换、加载C/S应用客户端数据采集Sqoop关系数据库导入Map-Reduce日志分析、提取??定制化程序其他数据采集数据采集层动态数据静态数据日志文件??其它数据数据源
数据源包括各类动态数据(如行为数据)、静态数据(如属性数据)、日志文件以及其它数据等,可以是结构化的、半结构化的和非结构化的数据。
在数据采集层,各采集工具根据具体情况采用不同的技术实现方式,如对动态数据的采集,使用C/S架构的客户端采集SDK,对日志文件使用Map-Reduce方式的分析提取工具,对静态数据按Sqoop方式从关系数据导入,对其它数据则使用定制化程序,等等。
9
ETL(数据抽取、转换、加载)将采集到的各种数据整合成统一的数据模型,包括数据清洗、数据转换、数据规约、数据集成等。为加快项目进度和保证项目质量,初步决定在某个支持Hadoop的开源ETL产品(如Kettle)的基础上进行二次开发。
在数据存储层,Hadoop集群使用Hadoop技术生态圈的诸多关键技术,包括:分布式存储HDFS系统、并行处理Map-Reduce机制、No-SQL数据库Hbase、数据仓库Hive、协调系统ZooKeeper等。此外,还需用到关系数据库担任数据中转、元数据存储、供某些软件使用等用途。
分析挖掘层的任务是在Hadoop集群实现各种分析挖掘算法和分析挖掘模型。算法和模型有两类,一类是抽象的数学算法(如聚类算法、关联分析算法)和数学模型(如神经网络模型、事物关联模型等),另一类是此基础上构建的专业算法(如金融客户分类算法、效果评估算法)和专业模型(如客户行为特征模型、效果评估模型)。为加快项目进度、保证项目质量和扩大适应范围,初步决定在SAS和R的分析挖掘包的基础上实现算法接口,并利用算法接口构建大部分模型,其余部分视实际情况而以自主研发方式构建。
可视化展现将分析挖掘结果面向用户进行各种可视化展现(如散点图、直方图、分布图、饼图等),分析挖掘的质量也决定着展现的质量。为加快项目进度,初步决定在某个可视化展现开源产品(如R的图形包)的基础上进行二次开发。
在业务实现层,分析挖掘结果集成到相应的金融业务系统中。具体方式既可以是实现某个独立的新业务系统,也可以是在现有系统中实现一个或多个新模块,从而扩充或提升原有的功能。
4.3 物理架构
“金融大数据服务平台”采用集中部署方式,硬件环境由Hadoop集群服务器和数据库集群组成,如下图所示:
Hadoop集群关系型数据库...NN1NN2DN1DN2DN3DBDB
其中,Hadoop集群包括两个NameNode(主从方式)和多个DataNode(最少3个,以
10
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库银行业金融大数据服务平台项目规划书(2)在线全文阅读。
相关推荐: