77范文网 - 专业文章范例文档资料分享平台

SPSS数据挖掘方法概述(4)

来源:网络收集 时间:2019-02-15 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

火龙果?整理 uml.org.cn

X1 X2 X3 ?? X10

X1 1 0.871 0.516 0.37 0.172 0.936 0.811 0.015 0.5 0.33 X2 1 0.7 0.64 0.4 0.821?? ?? 1??

1 ??

1??

1??

1??

1??

1??

X10 1??

2)用计算机求解特征方程 det(R-?E)=0的特征根?i,其中累计贡献率达到93.4%的前三个特征根为:?1=6.83,?2=1.76,

?3=0.75;

3)计算三个特征值的特征向量及累计贡献率见下表:

评价组 X1 X2 X3 X4 X4 X6 X7 X8 X9 X10 特征值?i 有效率?i/10 累计贡献率 特征向量B1 0.268 0.311 0.323 0.229 0.261 0.309 0.344 0.348 0.346 0.303 6.83 68.3% 68.3% n特征向量B2 0.446 0.24 -0.166 -0359 -0.507 0.408 0.235 0.032 -0.164 -0.267 1.76 0.176 85.9% 特征向量B3 0.194 0.336 0.442 0.375 0.128 -0.084 -0.171 -0.29 -0.322 -0.522 0.75 0.075 93.4% 4)计算主分量Z k,Z k=?BkiXi,即

i?1 Z1=0.268X1+0.311X2+0.323X3+?0.30X10

Z2=0.446X1+0.24X2 —0.1663X3+?—0.267X10 Z3=0.194X1+0.336X2 +0.442X3+?—0.522X10 5)分析各特征向量的各分量的取值

对B1,各分量取值差异不大,符号相同(都是正号),表明对哪一评价组合都是喜欢的,或者都是不喜欢的,因此可以把新的综合指标Z1定义为偏好指标;

对B2,从第1组到第5组,从第6组到第10组,有从大到小的变化相同的趋势,即随年龄的增长而取值由正变负,表示了年龄对偏好喜欢程度的影响,因此可以把综合指标Z2定义

16

火龙果?整理 uml.org.cn

为年龄指标。

对B3,各分量对于1到5组(男性)取正值,对于女性取负值,表示由于性别的不同而产生的偏好上的不同,所以可以把综合指标Z3定义为性别指标。

可以归纳为:影响手机购买的主要因素是:偏好、年龄、性别。

6) 可以通过X1——X10的取值,获取Zk的取值,分析偏好与年龄的变化关系; 7)可以通过计算Zk对Xi的贡献率vi??rk?1m2(Zk,Xi),确定贡献率最大的

vi相应的

评价组合,由此确定销售主要的对象策略。如计算得到的 Xi vi为:

r(Z3,Xi) vi??r2(Zk,Xi) k?13r(Z1,Xi) 0.91 0.7 0.62 0.91 0.86 0.76 0.78 0.5 0.23 0.42 r(Z2,Xi) 0.32 0.23 -0.53 0.29 0.32 0.44 0.31 -0.6 0.11 -0.23 1 2 3 4 5 6 7 8 9 10 0.01 0.08 0.18 0.04 0.04 -0.03 0.03 -0.19 0.8 -0.67 0.93 * 0.55 0.7 0.92 * 0.85 * 0.77 * 0.71 0.65 0.7 0.7 把i大于0.75的用*表出,可见偏好、年龄以及性别对20岁以下的男、女组合、40岁以上的男性组合影响较大。

思考问题:如何通过收集的客户有关数据,分析客户流失的主要因素? 作业:

用随机赋分形式形成各年龄层的调查分数,借助SPSS,求出各年龄层最感兴趣的三款手机。

4、决策树概述

决策树:一种以实例为基础的归纳学习算法,它从一组无次序、无规则的实例中推理出树表示形式的分类规则。

问题引入:设想影响气候的主要指标有四个: 天气:晴、多云、下雨;分别记为0,1,2

温度:寒冷,温暖,热,分别记为0,1,2 湿度:潮湿、正常,分别记为0,1,

17

v 火龙果?整理 uml.org.cn

风力:有风,没风,分别记为0,1。

将气候分为两个级别:P,N,分别记为0,1。

如果某一天的气候为多云,寒冷,湿度正常,没风,问气候是哪一级别? 思路:1)建立判别实例集;

2)由实例集建立一棵判别的决策树; 3)由决策树对任何组合气候特征进行判断。 关键问题:如何建立决策树,树的属性判别次序如何选择?

C5.0系统决策树的算法(ID3)特点:首先找出最有判别力的因素,把数据分成两个子集,每个子集又选择最有判别力的因素进行划分,一直进行到所有子集仅包含同一类型的数据为止。 决策树建立过程:设收集的气候实例集为: 样本号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 设想用获得信息量最大的特征作为决策树判别的标准。若U表示信息源,V表示收到的信息,I(U,V)表示收到信息V后获得关于U的信息量,定义 I(U,V)=H(U)—H(U∣V)

对于相同的U及不同的V,当I(U,V)最大时,将属性V(即收到的信息)作为决策树的判断点。

关于H(U)、H(U∣V)的计算,用上述实例说明。

设Uj表示输出类别(j=1,2),即U1=P,U2=N;Vk表示判别特征,即V1=天气,V2=温度,V3=湿度,V4=风力,k=1,2,3,4,Vkj表示第K个判别特征的第j个取值,如V1=天气的取值为:V11=晴,V12=多云,V13=有雨。为了选择最有判别力的特征,需要分别计算I(U,Vk),从中取最大I(U,Vk0),相应的Vk0就是判别特征。

天气 晴 晴 多云 有雨 有雨 有雨 多云 晴 晴 有雨 晴 多云 多云 有雨 温度 热 热 热 温暖 寒冷 寒冷 寒冷 温暖 寒冷 温暖 温暖 温暖 热 温暖 湿度 潮湿 潮湿 潮湿 潮湿 正常 正常 正常 潮湿 正常 正常 正常 潮湿 正常 潮湿 风力 没风 有风 没风 没风 没风 有风 有风 没风 没风 没风 有风 有风 没风 有风 分类 N N P P P N P N P P P P P N 1)

H(U)的计算:根据输出类别Uj的概率进行计算,即

18

火龙果?整理 uml.org.cn

2

H(U)???P(Ui)log2P(Ui)

i?1由于 P(U1)=9/14, P(U2)=5/14

H(U)???P(Ui)log2P(Ui)

i?12 = —[9/14?log2(9/14)+ 5/14?log2(5/14)] =0.94

2)

计算H(U∣V1):

H(UV1)??P(V1j)H(UV1j)??P(V1j)(??P(UiV1j)log2P(UiV1j)),

j?1j?1i?1332 (1) 由于

P(V11)=5/14, P(V12)=4/14, P(V13)=5/14, P(U1∣V11)=2/5,P(U2∣V11)=3/5 P(U1∣V12)=1,P(U2∣V11)=0 P(U1∣V13)=3/5,P(U2∣V13)=2/5 代入(1)得:

H(UV1)??P(V1j)H(UV1j)??P(V1j)(??P(UiV1j)log2P(UiV1j))

j?1j?1i?1332 =5/14[2/5 log2(5/2)+ 3/5 log2(5/3)]+ 4/14[log2(1)+ 0]+ 5/14[3/5 log2(5/3)+ 2/5

log2(5/2)]

=0.694,

3) 4)

计算I(U,V1):

I(U,V1)=H(U)—H(U∣V1)=0.94-0.694=0.246 同理计算I(U,Vk)(k=2,3,4),并求出最大I(U,Vk):

可以计算得到:I(U,V2)=0.029,I(U,V3)=0.159,I(U,V4)=0.048

与I(U,V1)==0.246相比,I(U,V1)最大,所以第一选择判别特征为V1=天气,作为决策树树根。

5)

建立树根的分支:树根对应的三个属性值(晴、多云,有雨)作为分支,分别有相

应晴的子集样本为F1={1,2,8,9,11},相应多云的子集样本为F2={3,7,12,13},相应有雨的子集样本为F3={4,5,6,10,14},其中F1中2个取P,3个取N, F2中全部取N,F3中3个取P,2个取N。所以仅需对F1、F3进一步判别,对F2不需再判别。

19

火龙果?整理 uml.org.cn

6)

递归建树:分别利用上述算法(ID3)对子集F1、F3继续判别,即对子集Fi(i=1,3)

个特征求平均互信息最大的特征。可以得到:

对F1,I(U,V3)最大,以其为该分支的结点再分支,由于取V3=湿度时,潮湿对应的类全是N类,正常对应的类全是P类,因而已有判别结果,不需继续再分。

对F3,计算得到平均互信息最大的为I(U,V4),V4=风力,以其为结点再分枝,此时有风对应的是N类,无风对应的是P类,所以也有判别结果,不许继续再分。见图所示。

晴 有雨 多云 湿度 风力 P 潮湿 正常 有风 无风 N P N P

天气 7) 8)

利用建立的决策树,对问题“某天气候为有雨,寒冷,湿度正常,没风”,进行判

别,判别结果为“气候为P类”。

利用决策树,可以写出判别规则:

IF “天气是晴” and “湿度潮湿”T hen “气候是N类” IF “天气是晴” and “湿度正常”T hen “气候是P类” IF “天气是多云” T hen “气候是P类”

IF “天气是有雨” and “有风”T hen “气候是N类” IF “天气是有雨” and “无风”T hen “气候是P类”

9)

决策树的存在问题:(1)依赖于特征取值较多的特征;

(2)依赖于正、反例取值个数;

(3)当正、反例个数变化时,平均互信息也变化,决策树变化。

思考问题:如何对顾客的数据进行判别,以作出最佳销售策略? 如何从一个决策树,转换为一个神经网络?

20

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库SPSS数据挖掘方法概述(4)在线全文阅读。

SPSS数据挖掘方法概述(4).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/466305.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: