石 家 庄 铁 道 大 学
实 验 报 告
课程名称: 实用多元统计分析 任课教师: 李玉红 实验日期 :2012-4-17 班 级: 经0910 姓 名: 王爽 学 号:20091436
实验项目名称:判别分析 一、实验目的及要求 1. 通过上机操作使学生掌握判别分析方法在SPSS软件中的实现,了解判别方法的分类、适用条件和结果验证方法; 2. 要求学生熟悉判别分析的用途和操作,重点掌握对软件处理结果的解释(区域图、未标准化典型判别函数、标准化典型判别函数等)和如何使用分析结果对新样品进行分类; 3. 要求学生阅读一定数量的文献资料,掌握判别分析方法在写作中的应用。 二、实验环境 1.系统软件:WindowsXP 2.工具:SPSS16.0 三、实验内容 为研究各种不同的因素对旅游项目参与的作用,某研究人员根据家庭年收入、对旅游的喜好、对家庭旅游的态度、家庭规模这四种指标建立数据文件“旅游”,其中变量x1、x2,x3,x4分别表示家庭年收入、对旅游的喜好、对家庭旅游的态度、家庭规模;变量result=1表示参与旅游;result=0表示不参与旅游。试作判别分析,建立判别函数以便在旅游项目中确定参与人员的范围并制定合适的旅游计划。 四、实验过程与步骤 1、使用菜单中File→Open命令,然后选中要分析的数据文件“旅游”。 2、选择Analyze→Classify→Discriminant,打开主对话框,将group移到“Grouping Variable”框中,激活Define Range,点击此按钮,进入定义范窗口, 分别在“Minimum”和“Maximum”后面的矩形框中键入0与1,然后按“Continue”按钮返回主对话框。 3、在主对话框左边的矩形框中选择判别变量“家庭年收入”、“对旅游的喜好”、“对家庭旅游的态度”、“家庭规模”,并用下面一个箭头按钮将它们移到“Independents”矩形框中。默认系统选择判别分析的方法“Enter independent together”。 4、在主对话框中点击Statistics选项,进入统计量对话框。在Descriptives框中,选择“Means”、 “Univariate ANOVAs”、 “Box’s M”; 在Function Coefficients框中,选择判别函数系数Fisher’s、Unstanhindardized;选中Matrices框中各项。然后按“Continue”按钮返回主对话框。 第 1 页 共 6 页
5、在主对话框中点击Classify选项,进入分类设置对话框。除系统默认项外,在Display框中选中Casewise results、Leave-one-out classification和Summary table项,在Plots框中,选中Combined-groups、Territorial map;然后按“Continue”按钮返回主对话框。 6、在主对话框中点击Save选项,进入存储结果设置对话框。选择“Predicted group membership”、 “Discriminant scores”、 “Probabilities of group membership”。 7、返回主对话框后按“OK”。 五、实验结果与分析 (一)应用条件分析 表1 各组统计量描述Group Statistics Group Statistics Valid N (listwise) 分组 0 家庭年收入 对旅游的喜好 对家庭旅游的态度 家庭规模 1 家庭年收入 对旅游的喜好 对家庭旅游的态度 家庭规模 Total 家庭年收入 对旅游的喜好 对家庭旅游的态度 家庭规模 Mean 42.0333 4.4000 4.0667 2.8000 60.4933 5.3333 5.8000 4.3333 51.2633 4.8667 4.9333 3.5667 Std. Deviation 7.69496 1.99284 2.05171 .94112 9.83198 1.91485 1.82052 1.23443 12.78214 1.97804 2.09981 1.33089 Unweighted 15 15 15 15 15 15 15 15 30 30 30 30 Weighted 15.000 15.000 15.000 15.000 15.000 15.000 15.000 15.000 30.000 30.000 30.000 30.000 分析:可以看出,各组的均值差异较大,且各组的方差也有所差异。 表2 各组均值相等检验Tests of Equality of Group Means Tests of Equality of Group Means 家庭年收入 对旅游的喜好 对家庭旅游的态度 家庭规模 Wilks' Lambda .461 .942 .824 .657 F 32.792 1.711 5.990 14.636 df1 1 1 1 1 df2 28 28 28 28 Sig. .000 .202 .021 .001 分析: 这张表是预测变量在各组间均值是否相等的假设检验。包含Wilks' lambda,F 统计量和它的自由度和显著性水平。 Wilks' lambda 是组内平方和与总平方和的比,值的范围在0 到1 之间。值越小表示第 2 页 共 6 页
组间有很大的差异。值接近1 表示没有组间差异。 F 统计量是组间均方与组内均方的比。有两个自由度,分子为df1 分母为df2。分子和分母自由度用来得到观测显著性水平。如果显著性水平值很小(比如说小于0.10)表示组间差异显著。如果显著性水平较大(比如说大于0.10)表示组间差异不显著。 本例中x1的sig值为0.000,表明x1在各组间的差异显著, x2的sig值为0.202,说明x2在各组间差异不显著,x3的sig值为0.021,表明x3在各组间的差异显著,x4的sig值为0.001,表明x4在各组间的差异显著。 表3 Box's 协方差矩阵检验Test Results Test Results Box's M F Approx. df1 df2 Sig. Tests null hypothesis of equal population covariance matrices. 11.363 .959 10 3.748E3 .478 分析: 原假设为: H0:?1??2?...??g Box's M检验的sig=0.478的概率值大于0.05,则各组组内协方差阵相同,原假设成立。这是进行判别分析的前提。 (二)判别函数 表4 特征根Eigenvalues Eigenvalues Function 1 Eigenvalue 1.685a % of Variance 100.0 Cumulative % 100.0 Canonical Correlation .792 a. First 1 canonical discriminant functions were used in the analysis. 分析: 表4列出了1个判别函数。由于组别数为4,因此判别函数的个数为1个。判别函数的特征值(Eigenvalue)越大,表明该函数越具有区别力。Canonical Correlation为典型相关系数,表示判别函数与组别间的关联程度。由此可知第一判别函数可以解释的方差为100%,第四栏为累计百分比,由第三栏自上往下累加而成。第五栏为典型相关系数0.792,表明该函数的线性相关程度较高(相关系数越接近1,表明该判别函数的线性程度越高)。 第 3 页 共 6 页
表5 检验判别函数的显著性水平Wilks' Lambda Wilks' Lambda Test of Function(s) 1 Wilks' Lambda .373 Chi-square 25.675 df 4 Sig. .000 分析: 第一栏test of functions 表示每步中判别函数被移去后的函数值。 原假设为各组中所有判别函数的总体均值相等。 如果显著,表示第二个判别函数也显著。本例中该判别函数对不同的两组有贡献。因为它的概率值远小于0.05。 表6 标准典型判别函数系数Standardized Canonical Discriminant Function Coefficients Standardized Canonical Discriminant Function Coefficients X1 X2 X3 X4 Function 1 .764 .034 .260 .474 分析:标准化判别函数系数可以看出预测变量在组成判别函数时的相对贡献,如本例该判别函数的x1,x2,x3,x4项都很重要,但相比下x1相对比x4重要,x3比x2重要,且标准典型判别函数为: y=0.746*x1+0.034*x2+0.260*x3+0.474*x4 表7 典型判别函数系数Canonical Discriminant Function Coefficients Canonical Discriminant Function Coefficients X1 X2 X3 X4 (Constant) Unstandardized coefficients Function 1 .086 .017 .134 .432 -6.721 分析: 非标准化判别函数系数,即费歇尔判别函数系数。 非标准典型判别函数为: y=-6.753+0.086*x1+0.017*x2+0.134*x3+0.432*x4 第 4 页 共 6 页
表8 各组重心表示Functions at Group Centroids Functions at Group Centroids Function 分组 0 1 Unstandardized canonical discriminant functions evaluated at group means 1 -1.254 1.254 分析:可以看出两组在该判别函数上的重心明显不同(-1.254,1. 254),因此该判别函数可以明显地区分这两组。 表9 判别函数系数Classification Function Coefficients Classification Function Coefficients 家庭年收入 对旅游的喜好 对家庭旅游的态度 家庭规模 (Constant) 0 分组 1 .462 .786 .962 1.819 -16.625 .678 .830 1.298 2.903 -33.479 Fisher's linear discriminant functions 分析:表9输出fisher线性判别函数: 非旅游参与者判别函数: F1=0.462×x1+0.786×x2+0.962×x3+1.819×x4-16.625 旅游参与者判别函数: F2=0.678×x1+0.830×x2+1.298×x3+2.903×x4-33.479 (三)交叉验证 第 5 页 共 6 页
表10 分类结果交叉表Classification Resultsb,c Classification Resultsb,c Original Count 分组 0 1 % 0 1 Predicted Group Membership 0 15 2 100.0 13.3 15 3 100.0 20.0 1 0 13 .0 86.7 0 12 .0 80.0 Total 15 15 100.0 100.0 15 15 100.0 100.0 Cross-validated aCount 0 1 % 0 1 a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b. 93.3% of original grouped cases correctly classified. c. 90.0% of cross-validated grouped cases correctly classified. 分析: 上半部分为原始分类的结果,下半部分为交叉分类的结果。第一栏为实际组别,第一行为预测组别。利用判别分析是否有助于对观测值的正确分类,可从统计的显著性来分析。原假设为判别分析总的结果同随便猜测的结果没有差别。考虑统计量Press'sQ?[31?(12?13)*2]31*(2?1)2~?1,其中N 为样本数;g 为组数;o 为正确分类的观测2值。 所以我们可以有99%的把握说判别分析的结果同随便猜测的结果明显的不同。从上表可以看出对原始分类的0与1正确率分别为93.3%,90.0%,用刀切法进行的交叉分类来讲其正确分类率分别为93.3%,90.0%。 (四)判别结果 表9输出fisher线性判别函数,该表给出了2个线性分类函数的系数。 假设一个数据:一个家庭年收入为60,对旅游的喜好为6,对家庭旅游的态度为6,家庭规模为3口人,根据表9所列数据,可得出公式为: F1=0.462×60+0.786×6+0.962×6+1.819×3-16.625=27.72+4.716+5.772+5.457-16.625=27.04 F2=0.678×60+0.830×6+1.298×6+2.903×3-33.479=40.68+4.98+7.788+8.709-33.479=28.678 把每个观测点带入如上2个函数,就可以得到分别代表二类的二个值,由公式结果可知。第二个数值较大些,即F2大于F1,可得出结论,该家庭会参加此旅游项目。
第 6 页 共 6 页
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库判别分析实验报告在线全文阅读。
相关推荐: