SPSS数据挖掘方法概述(4)

来源：网络收集时间：2019-02-15 下载这篇文档手机版

说明：文章内容仅供预览，部分内容可能不全，需要完整文档或者需要复制内容，请下载word后使用。下载word有问题请添加微信号:或QQ：处理（尽可能给您提供完整文档），感谢您的支持与谅解。

火龙果?整理 uml.org.cn

X1 X2 X3 ?? X10

X1 1 0.871 0.516 0.37 0.172 0.936 0.811 0.015 0.5 0.33 X2 1 0.7 0.64 0.4 0.821?? ?? 1??

1 ??

1??

X10 1??

2）用计算机求解特征方程 det(R-?E)=0的特征根?i，其中累计贡献率达到93.4%的前三个特征根为：?1=6.83，?2=1.76，

?3=0.75；

3）计算三个特征值的特征向量及累计贡献率见下表：

评价组 X1 X2 X3 X4 X4 X6 X7 X8 X9 X10 特征值?i 有效率?i/10 累计贡献率特征向量B1 0．268 0．311 0．323 0．229 0．261 0．309 0．344 0．348 0．346 0．303 6．83 68．3% 68．3% n特征向量B2 0．446 0．24 -0．166 -0359 -0．507 0．408 0．235 0．032 -0．164 -0．267 1．76 0．176 85．9% 特征向量B3 0．194 0．336 0．442 0．375 0．128 -0．084 -0．171 -0．29 -0．322 -0．522 0．75 0．075 93．4% 4）计算主分量Z k，Z k=?BkiXi，即

i?1 Z1=0．268X1+0．311X2+0．323X3+?0．30X10

Z2=0．446X1+0．24X2 —0．1663X3+?—0．267X10 Z3=0．194X1+0．336X2 +0．442X3+?—0．522X10 5）分析各特征向量的各分量的取值

对B1，各分量取值差异不大，符号相同（都是正号），表明对哪一评价组合都是喜欢的，或者都是不喜欢的，因此可以把新的综合指标Z1定义为偏好指标；

对B2，从第1组到第5组，从第6组到第10组，有从大到小的变化相同的趋势，即随年龄的增长而取值由正变负，表示了年龄对偏好喜欢程度的影响，因此可以把综合指标Z2定义

火龙果?整理 uml.org.cn

为年龄指标。

对B3，各分量对于1到5组（男性）取正值，对于女性取负值，表示由于性别的不同而产生的偏好上的不同，所以可以把综合指标Z3定义为性别指标。

可以归纳为：影响手机购买的主要因素是：偏好、年龄、性别。

6）可以通过X1——X10的取值，获取Zk的取值，分析偏好与年龄的变化关系； 7）可以通过计算Zk对Xi的贡献率vi??rk?1m2(Zk,Xi)，确定贡献率最大的

vi相应的

评价组合，由此确定销售主要的对象策略。如计算得到的 Xi vi为：

r(Z3,Xi) vi??r2(Zk,Xi) k?13r(Z1,Xi) 0.91 0.7 0.62 0.91 0.86 0.76 0.78 0.5 0.23 0.42 r(Z2,Xi) 0.32 0.23 -0.53 0.29 0.32 0.44 0.31 -0.6 0.11 -0.23 1 2 3 4 5 6 7 8 9 10 0.01 0.08 0.18 0.04 0.04 -0.03 0.03 -0.19 0.8 -0.67 0.93 * 0.55 0.7 0.92 * 0.85 * 0.77 * 0.71 0.65 0.7 0.7 把i大于0.75的用*表出，可见偏好、年龄以及性别对20岁以下的男、女组合、40岁以上的男性组合影响较大。

思考问题：如何通过收集的客户有关数据，分析客户流失的主要因素？作业：

用随机赋分形式形成各年龄层的调查分数，借助SPSS，求出各年龄层最感兴趣的三款手机。

4、决策树概述

决策树：一种以实例为基础的归纳学习算法，它从一组无次序、无规则的实例中推理出树表示形式的分类规则。

问题引入：设想影响气候的主要指标有四个：天气：晴、多云、下雨；分别记为0，1，2

温度：寒冷，温暖，热，分别记为0，1，2 湿度：潮湿、正常，分别记为0，1，

v 火龙果?整理 uml.org.cn

风力：有风，没风，分别记为0，1。

将气候分为两个级别：P，N，分别记为0，1。

如果某一天的气候为多云，寒冷，湿度正常，没风，问气候是哪一级别？思路：1）建立判别实例集；

2）由实例集建立一棵判别的决策树； 3）由决策树对任何组合气候特征进行判断。关键问题：如何建立决策树，树的属性判别次序如何选择？

C5.0系统决策树的算法（ID3）特点：首先找出最有判别力的因素，把数据分成两个子集，每个子集又选择最有判别力的因素进行划分，一直进行到所有子集仅包含同一类型的数据为止。决策树建立过程：设收集的气候实例集为：样本号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 设想用获得信息量最大的特征作为决策树判别的标准。若U表示信息源，V表示收到的信息，I（U，V）表示收到信息V后获得关于U的信息量，定义 I（U，V）=H（U）—H（U∣V）

对于相同的U及不同的V，当I（U，V）最大时，将属性V（即收到的信息）作为决策树的判断点。

关于H（U）、H（U∣V）的计算，用上述实例说明。

设Uj表示输出类别(j=1,2)，即U1=P，U2=N；Vk表示判别特征，即V1=天气，V2=温度，V3=湿度，V4=风力，k=1,2,3,4,Vkj表示第K个判别特征的第j个取值，如V1=天气的取值为：V11=晴，V12=多云，V13=有雨。为了选择最有判别力的特征，需要分别计算I（U，Vk），从中取最大I（U，Vk0），相应的Vk0就是判别特征。

天气晴晴多云有雨有雨有雨多云晴晴有雨晴多云多云有雨温度热热热温暖寒冷寒冷寒冷温暖寒冷温暖温暖温暖热温暖湿度潮湿潮湿潮湿潮湿正常正常正常潮湿正常正常正常潮湿正常潮湿风力没风有风没风没风没风有风有风没风没风没风有风有风没风有风分类 N N P P P N P N P P P P P N 1）

H（U）的计算：根据输出类别Uj的概率进行计算，即

火龙果?整理 uml.org.cn

H(U)???P(Ui)log2P(Ui)

i?1由于 P（U1）=9/14， P（U2）=5/14

H(U)???P(Ui)log2P(Ui)

i?12 = —[9/14?log2(9/14)+ 5/14?log2(5/14)] =0.94

2）

计算H（U∣V1）：

H(UV1)??P(V1j)H(UV1j)??P(V1j)(??P(UiV1j)log2P(UiV1j))，

j?1j?1i?1332 （1）由于

P（V11）=5/14， P（V12）=4/14， P（V13）=5/14， P（U1∣V11）=2/5，P（U2∣V11）=3/5 P（U1∣V12）=1，P（U2∣V11）=0 P（U1∣V13）=3/5，P（U2∣V13）=2/5 代入（1）得：

H(UV1)??P(V1j)H(UV1j)??P(V1j)(??P(UiV1j)log2P(UiV1j))

j?1j?1i?1332 =5/14[2/5 log2(5/2)+ 3/5 log2(5/3)]+ 4/14[log2(1)+ 0]+ 5/14[3/5 log2(5/3)+ 2/5

log2(5/2)]

=0.694，

3） 4）

计算I（U，V1）：

I（U，V1）=H（U）—H（U∣V1）=0.94-0.694=0.246 同理计算I（U，Vk）(k=2,3,4)，并求出最大I（U，Vk）：

可以计算得到：I（U，V2）=0.029，I（U，V3）=0.159，I（U，V4）=0.048

与I（U，V1）==0.246相比，I（U，V1）最大，所以第一选择判别特征为V1=天气，作为决策树树根。

5）

建立树根的分支：树根对应的三个属性值（晴、多云，有雨）作为分支，分别有相

应晴的子集样本为F1={1，2，8，9，11}，相应多云的子集样本为F2={3，7，12，13}，相应有雨的子集样本为F3={4，5，6，10，14}，其中F1中2个取P，3个取N， F2中全部取N，F3中3个取P，2个取N。所以仅需对F1、F3进一步判别，对F2不需再判别。

火龙果?整理 uml.org.cn

6）

递归建树：分别利用上述算法（ID3）对子集F1、F3继续判别，即对子集Fi(i=1,3)

个特征求平均互信息最大的特征。可以得到：

对F1，I（U，V3）最大，以其为该分支的结点再分支，由于取V3=湿度时，潮湿对应的类全是N类，正常对应的类全是P类，因而已有判别结果，不需继续再分。

对F3，计算得到平均互信息最大的为I（U，V4），V4=风力，以其为结点再分枝，此时有风对应的是N类，无风对应的是P类，所以也有判别结果，不许继续再分。见图所示。

晴有雨多云湿度风力 P 潮湿正常有风无风 N P N P

天气 7） 8）

利用建立的决策树，对问题“某天气候为有雨，寒冷，湿度正常，没风”，进行判

别，判别结果为“气候为P类”。

利用决策树，可以写出判别规则：

IF “天气是晴” and “湿度潮湿”T hen “气候是N类” IF “天气是晴” and “湿度正常”T hen “气候是P类” IF “天气是多云” T hen “气候是P类”

IF “天气是有雨” and “有风”T hen “气候是N类” IF “天气是有雨” and “无风”T hen “气候是P类”

9）

决策树的存在问题：（1）依赖于特征取值较多的特征；

（2）依赖于正、反例取值个数；

（3）当正、反例个数变化时，平均互信息也变化，决策树变化。

思考问题：如何对顾客的数据进行判别，以作出最佳销售策略？如何从一个决策树，转换为一个神经网络？

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读，免费范文网，提供经典小说综合文库SPSS数据挖掘方法概述(4)在线全文阅读。

SPSS数据挖掘方法概述(4).doc 将本文的Word文档下载到电脑，方便复制、编辑、收藏和打印下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

本文链接：https://www.77cn.com.cn/wenku/zonghe/466305.html（转载请注明文章来源）

上一篇：高压电工模拟试卷
下一篇：计算机等级考试省一级省计算机等级考试题库