论文题目
摘要
本文针对分析消费者价值的问题,建立了聚类分析模型、主成份分析模型。在对消费者特征指标进行筛选后,对消费者样本进行了分类,最后对各类消费者的指标进行主成份分析得出综合评价值,据此为其制定出相应的服务策略。
问题一中,为了将消费者样本进行分类,首先对消费者原始数据进行了异常数据处理以及消费者特征指标的选取,为充分利用给出的原始数据中的各项指标,我们新增了一个特征指标:消费者购买频率,同时对其数据进行了正态性检验。然后建立了基于样本分类的 R 型聚类分析模型,将消费者分为了八类,例如:编号为 M00058、M00060、 M00116、M00135、M00142的消费者属于第一类消费者,编号为M00081、M00086、M00114、 M00118??的消费者属于第二类消费者。
问题二中,为了比较不同类别消费者的价值,首先对问题一中八类消费者的各项特征指标数据分别进行累加求均值,然后对消费者特征指标做主成分分析,并运用线性加权综合评价模型对各类消费者进行综合价值的打分和排序。例如:综合价值最高的是第四类消费者,其综合价值评分为0.9434,其次是第二类消费者,其综合评价值为:0.8342、随后是第五类、第七类、第六类、第三类、第一类消费者,其综合价值评分分别为:0.4977, 0.4694,0.4294,0.1849,-1.6126,-1.7465。
问题三中,为针对不同的消费群体制定不同的服务策略,首先将问题二中的各类消费者特征指标均值与特征指标总均值进行对比,将对比结果相同的消费者类别进行分类,得出四类特征相似的消费群体,例如:第四类消费者和第二类消费者特征指标趋势一致,第七类和第八类消费者特征指标趋势一致,第五类和第六类消费者特征指标趋势一致,第一类和第三类消费者特征指标趋势一致。根据不同特征指标均值与总均值的差异,对不同消费群体制定不同的服务策略。最后,对八类消费者综合评价值进行聚类分类,以验证上述均值比较分类是否合理。
本文最大的特色是在于对消费者各项特征指标处理时运用了聚类分析,主成分分析、等多种方法,使用 Matlab 软件高效地对题目数据进行了充分地分析、检验和处理。
关键词: 消费者价值 聚类分析 主成份分析
一、 问题提出
1.1.问题背景
1
信息时代来临,各大服务公司使用计算机信息系统收集了大量的客户消费信息。为了有效的利用它们为公司的生产、营销服务,需要对信息进行分析处理,尤其是对不同消费群体的特征进行分析,发现客户价值,制定不同的策略。
1.2.问题要求
根据附件中消费数据文件,对数据进行处理分析,挖掘数据中的不同消费者群体的特征,发现客户的价值,制定不同的消费策略,建立数学模型讨论下列问题:
第一问:对消费者进行分类;
第二问:分析不同类别的消费者的特征,比较不同类别的消费者的价;,第三问:针对不同的消费群体给出不同的服务策略。
二、基本假设
假设1:附件-消费者数据表中有问题的数据经过数据预处理后所添加或改善,对后面结果无影响。
假设2:题目中所提供的数据以及我们所收集的资料是真实可靠的。 假设3:制定消费者服务策略时,可忽略企业自身资源限制。
三、符号说明
符号 C 意义 从进入系统到观测截止日的消费总次数 单位 1 T= 值越大 D 越好 M 总消费数 Z 平均折扣率 P 消费频率 备注 J 最近一次消费时间与观测截止日间隔的倒数
2
aij 第i个消费者第j类特征指标的取值 dik DG G?欧几里得距离 , GG类和之间的距离 ? p qpqNpq 第p类消费者第q个指标变量的归一化数据平均值 rjk 第j个指标与第k个指标的相关系数 yj 第j个主成分 bj 第j个主成份的信息贡献率 四、问题分析 在问题一中,原始数据中某些消费者的指标数据有错,因此需进行数据的筛选以保证数据的合理性。此外还需要对消费者的特征指标进行选取,以确定模型的特征变量。最后,数据由于指标的量纲不统一性和影响趋势的不同,要进行归一化处理。由于消费者数量很多,且某些消费者可能有一定的相似性,为了简化问题和便于分析,我们对处理后的数据表中的样本进行聚类分析,将特征变量具有相似性的样本进行聚类分类。 在问题二中,我们调用第一问中已分好的消费者类别,对各类消费者的指标变量数据取均值,整理数据,对五个指标变量其进行主成份分析,在进行各指标的权数确定,最后得出各类消费者的综合价值评分。
思路框图如下:
3
在问题三中,我们根据第二问求出的不同类别消费者的综合价值,对这几类消费者的综合价值进行聚类,再将各类消费者指标值与其均值做比较,作出相应评价,为其制定服务策略。
五、模型的建立与求解
5.1 问题一模型建立与求解 5.1.1 问题一的分析
本问题要求根据收集到的消费者原始数据对消费者进行分类。那么,首先我们可以通过系统聚类分析法对所有的数据样本进行分类。
系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项目)归并为若干不同的类别(并以分类树形图表示),使得每一类别的所有个体之间具有较密切的关系,而各类别之间的相互关系相对地比较疏远。系统聚类分析最后得到一个反应个体之间亲疏关系的自然谱系,它比较客观的描述了分类对象的各个体之间的差异和联系。根据分类目的的不同,系统聚类分析可分为两类:一类是对变量分析,称为R型分析;林一磊是对样品分类,称为Q型分析。本文采用R型分析对消费者进行分类。 5.1.2 问题一模型的建立
(1)指标变量的选取
根据查阅资料:我们得知美国数据库营销数据分析教授Hughes 提出RFM 模型,认为消费者的消费记录中有三个主要要素构成了顾客细分的最好指标,分别为近度 (顾客的近期购买行为)、频度 (顾客近期购买的总体频率)、值度(顾客近期的累计购买金额)。 据此,我们直接选择原始数据中的指标变量有:从进入系统到观测截止日的消费总次数,我们用“C”表示;总消费数,我们用“M”表示;平均折扣率,我们用“Z”表示;作为我们建立模型分析的前三个指标变量。最近一次消费时间与观测截止日的间隔,我们用“D”表示,为了方便分析数据的线性关系,我们取最近一次消费时间与观测截止日的间隔“1/D”作为指标变量,记为“J”。
此外,为了有效利用所给消费数据中的其他特征指标变量,以及更好的为模型提供相关数据,我们将消费者进入系统日期“Din”,观测截止日期“Dend”,从进入系统到观测截止日的消费总次数进行计算, 得出一个新的指标变量消费频率:
C
P =
D Dend ?i n
4
式中:Din,Dend分别表示将消费者进入系统日期,观测截止日期,P表示新增变量指标消费频率。
为检验上述新增指标的合理性,我们用Matlab进行正态分布检验:正态分布表如图所示:
图 1- 1 消费频率的正态分布概率图
通过检验,新增变量指标消费频率满足正态分布,即该指标的数据符合数据统计的随机性,所以该指标的增加合理。
(2) 异常数据的处理
观察表格发现,在平均折扣率一列中有少部分消费者统计数据是大于1的,根据平均折扣率公式定义,可知平均折扣率范围应该在0到1之间,因此消费者样本中平均折扣率大于1的数据则为异常数据。
通过使用 Excel 对这些异常数据的统计可知,异常数据样本占总消费者样本的
11.94%,小于统计数据中大量样本随机性统计误差样本比例的20%,因此,我们选择个案剔除法,将平均折扣率大于1的消费者样本数据剔除。
(3) 数据归一化处理
由于各列数据的量纲不相同,所以要对各项统计数据做归一化处理。
由于在本模型中各变量的最大值和最小值已知,原始值通过 Min-max 标准化能全部映射在区间[0,1]上,且为消除个别变量对计算结果的影响,本模型中各指标数据的标准化处理采用 Min-max 标准化方法。
用i=1,2,···,8806表示消费者M00001到M8806,j=1,2,3,4,分别表示指标变量从进入系统到观测截止日的消费总次数(F),最近一次消费时间与观测截止日的间隔(R),总消费数(M),消费频率(P)。
5
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库西南交通大学2017数学建模国赛预选赛优秀论文在线全文阅读。
相关推荐: