第二十五课 方差分析
当影响观察结果的影响因素(原因变量或分组变量)的水平数大于2或原因变量的个数大于1个,一元时常用F检验(也称一元方差分析),多元时用多元方差分析(最常用Wilks’∧检验)。
一、 方差分析概述
方差分析(analysis of variance)又称变异数分析,可简记为ANOVA,主要用于检验计量资料中的两个或两个以上均值间差别显著性的方法。当欲比较几组均值时,理论上抽得的几个样本,都假定来自正态总体,且有一个相同的方差,仅仅均值可以不相同。还需假定每一个观察值都由若干部分累加而成,也即总的效果可分成若干部分,而每一部分都有一个特定的含义,称之谓效应的可加性。所谓的方差是离均差平方和除以自由度,在方差分析中常简称为均方MS(mean square)。 1. 方差分析的基本思想
根据效应的可加性,将总的离均差平方和分解成若干部分,每一部分都与某一种效应相对应,总自由度也被分成相应的各个部分,各部分的离均差平方除以相应部分的自由度得出各部分的均方,然后列出方差分析表算出F值,作出统计推断。
方差分析的关键是总离均差平方和的分解,分解越细致,各部分的含义就越明确,对各种效应的作用就越了解,统计推断就越准确。方差分析表的一般形式见表25.1所示:
表25.1 方差分析表形式
变异来源 source 效应S1 效应S2 ?? 效应Sm 误差Se 总变异ST 离差平方和 SS SS1 SS2 ?? SSm SSe + SSm+ SSe 自由度 df df1 df2 ?? dfm dfe + dfm + dfe 均方 MS MS1= SS1/df1 MS2= SS2/df2 ?? MSm= SSm/dfm MSe= SSe/dfe MST= SST/dfT F统计量 F F1(df1, dfe)= MS1/ MSe F2(df2, dfe)= MS2/ MSe ?? Fm(dfm, dfe)= MSm/ MSe FT(dfT, dfe)= MST/ MSe P概率值 P P1 P2 Pm PT SST= SS1+ SS2+?dfT=df1+ df2+?
表中变异来源一栏,可分为总变异(total),误差(residual),各个效应(effect)相对应的项。效应项与试验设计或统计分析的目的有关,一般有:主效应(包括各种因素),交互影响项(因素间的多级交互影响),协变量(来自回归的变异项),等等。
当分析和确定了各个效应项S后,根据原始观察资料可计算出各个离均差平方和SS,再根据相应的自由度df,由公式MS=SS/df,求出均方MS,最后由相应的均方,求出各个变异项的F值,F值实际上是两个均方之比值,通常情况下,分母的均方是误差项的均方。根据F值的分子、分母均方的自由度f1和f2,在确定显著性水平为?情况下,由F(f1,f2)临界值表查得单侧F?界限值。当F?F?时,则P??,不拒绝原假设H0,说明不拒绝这个效应项的效应为0的原假设,也即这个效应项是可能对总变异没有实质影响的;如果F?F?,则
上海财经大学经济信息管理系IS/SHUFE
Page 1 of 30
P??,拒绝原假设H0,说明拒绝这个效应项的效应为0的原假设,也即这个效应项是很
可能对总变异有实质影响的。
2. 方差分析的试验设计
为了确定方差分析表中各个有关效应项,需要在试验设计阶段就作出安排,再根据设计要求进行试验,得出原始观察值,按原来设计方案算出方差分析表中的各项。在试验设计阶段常需要作主要四个方面的考虑: 1) 研究的主要变量
方差分析的主要变量,也称响应变量或因变量(dependent variable),它是我们试验所要观察的主要指标。一次试验时可以有多个观察指标,方差分析时也可以同时对多个因变量进行分析。
2) 因素和水平
试验的因素(factor)可以是品种、人员、方法、时间、地区等等,因素所处的状态叫水平(level)。在每一个因素下面可以分成若干水平。例如,某工厂的原料来自四个不同地区,那么用不同地区的原料生产的产品质量是否一致呢?所要比较的地区就是因素,四个地区便是地区这一因素的四个水平。当某个主要因素的各个水平间的主要因变量的均值呈现统计显著性时,必要时可作两两水平间的比较,称为均值间的两两比较。 3) 因素间的交互影响
多因素的试验设计,有时需要分析因素间的交互影响(interaction),2个因素间的交互影响称为一级交互影响,例如因素A与因素B的一级交互影响可记为A×B,3个因素间的交互影响称为二级交互影响,例如因素A与因素B与因素C的二级交互影响可记为A×B×C。当交互影响项呈现统计不显著时,表明各个因素独立,当呈现统计显著时,就需要列出这个交互影响项的效应,以助于作出正确的统计推断。
二、 单因素方差分析
单因素方差分析(one factor ANOVA 或one-way ANOVA)或称为完全随机设计的方差分析(completely random design ANOVA)。试验设计时按受试对象的抽取或分组的随机程度不同可细分为以下两类:
? 完全随机设计——从符合条件的总体中完全随机地抽取所需数目的受试对象,再
将全部受试对象完全随机地分配到k组中去。此时,受试对象与试验因素间无直接联系。
? 组内完全随机设计——按试验因素的k个水平将全部受试对象划分成k个子总体,
再分别从k个子总体中完全随机地抽取所需数目的受试对象。此时,试验因素的各水平决定了受试对象各自应该归属的组别。
设因素A有k个水平A1,A2,?,Ak,在每一个水平下考察的指标可以看成一个总体,现有k个水平,故有k个总体,并假定:
① 每一总体均服从正态分布; ② 每一总体的方差相同;
③ 从每一总体中抽取的样本相互独立。
我们要比较各个总体的均值是否一致,就是要检验各总体的均值是否相同,设第i个总体的均值为?i,那么就是要检验如下原假设:
上海财经大学经济信息管理系IS/SHUFE
Page 2 of 30
H0:?1??2????k
其备选假设为:
H1:?1,?2,?,?k不全相同。
设从第i个总体获得容量为ni的样本观察值为yi1,yi2,?,yini,i?1,2,?,k,各样本间还是相互独立的。样本观察值yij可看成是来自均值为?i的总体,这样yij就是其均值?i与随机误差?ij迭加而产生的。上面我们已经假定在Ai水平下的yij服从N(?i,?2)分布,则有
?ij~N(0,?2)。因此,我们有单因素方差分析的统计模型:
j?1,2,?,ni??yij??i??ij,i?1,2,?,k, ?2??各?ij相互独立,且都服从N(0,?)(25.1)
为了能更仔细地描述数据,常在方差分析模型中引人一般平均与效应的概念。称各个?i的加权平均
1k???ni?i
ni?1为总平均,其中n?(25.2)
?ni?1ki。称
ai??i??,i?1,2,?,k
(25.3)
为因素A在第i水平的主效应,也简称为Ai的效应,同时也表明第i个总体的均值是一般平均与其效应的迭加。容易看出效应间有如下关系式:
?naii?1ki?0
(25.4)
此时,单因素方差分析的统计模型可改写成包含效应的形式:
?yij???ai??ij,i?1,2,?,k,?k???niai?0?i?1?各?相互独立,且都服从N(0,?2)?ij所要检验的原假设也可改写成:
j?1,2,?,ni
(25.5)
H0:a1?a2???ak?0
现在,我们知道造成各yij间差异的原因可能有两个:一个可能是假设H0不真,即各水
上海财经大学经济信息管理系IS/SHUFE
Page 3 of 30
平下总体均值?i(或水平效应ai)不同,因此从各总体中获得的样本观察值也就有差异了;另一可能是H0为真,差异是由于随机误差引起的。为了进一步定量分析这些差异,我们需要把这些差异表达出来。由(25.1)可推导出:
yi???i??i?
其中yi??(25.6)
?yj?1niij/ni,?i????ij/ni。即组内样本观察值的平均值等于组内总体均值加上
j?1ni组内随机误差的平均值。还可由(25.5)推导出:
y???? 其中y?(25.7)
??yi?1j?1kniij/n,?????ij。即所有样本观察值的平均值等于总平均(各组均值的
i?1j?1kni加权平均)加上所有随机误差的平均值。这样,每一个观察值yij与总平均y的偏差可以分解成两部分:
yij?y?(yij?yi?)?(yi??y)
其中yij?yi?称为组内偏差,由(25.1)和(25.6)代入得到:
(25.8)
yij?yi??(?i??ij)?(?i??i?)??ij??i?
(3.2.9)
说明组内偏差仅仅反映了随机误差。而yi??y称为组间偏差,由(25.6)、(25.7)和(25.3)代入得到:
yi??y?(?i??i?)?(???)?ai??i???
说明第i组间偏差除了反映随机误差外还反映了第i个水平的效应ai。
各yij间总的差异大小可用总偏差平方和ST表示:
(25.9)
ST???(yij?y)2
i?1j?1kni(25.10)
由(25.9)随机误差引起的数据间的差异可以用组内偏差平方和表示,也称误差偏差平方和Se:
Se???(yij?yi?)2
i?1j?1kni(25.11)
由于组间偏差除了随机误差外,还反映了效应的差异,故由于效应不同引起的数据差异可以用组间偏差平方和表示,也称因素A的偏差平方和SA:
上海财经大学经济信息管理系IS/SHUFE
Page 4 of 30
SA??ni(yi??y)2
i?1k(25.12)
将表示总差异的平方和进行分解:
ST???(yij?y)???(yij?yi??yi??y)22i?1j?1knii?1j?1kknikni???(yij?yi?)???(yi??y)?2??(yij?yi?)(yi??y)22i?1j?1knii?1j?1ki?1j?1nikni (25.13)
???(yij?yi?)??ni(yi??y)22i?1j?1i?1?Se?SA其中
?(yj?1niij?yi?)?0。证明了:总的差异=组内差异+组间差异。由于
11?2?(yj?1niij?yi?)?2?2?(?j?1niij??i?)2~?2(ni?1)
(25.14)
又由?2分布的可加性可知
?1????2i?1??2Sekk?2(yij?yi?)??~?(?(ni?1))??2(n?k) ?j?1i?1?ni2(25.15)
还可证明,在H0为真时,即各组效应ai都为0
SA?因此可采用统计量
2~?2(k?1)
(25.16)
F?来假设检验。
SA/(k?1)~F(k?1,n?k)
Se/(n?k)(25.17)
三、 多重比较
当k组均值比较,如果经过F检验拒绝原假设,表明因素A是显著的,即k个水平对应的指标均值不全相等,但不一定两两之间都有差异。在一些实际问题中,当方差分析的结论是因素A显著时,还需要我们进一步去确认哪些水平间是确有差异的,哪些水平间无显著差异。同时比较任意两个水平均值间有无显著性差异的问题称为多重比较,即要以显著性水平
?,同时检验以下Ck2个假设:
上海财经大学经济信息管理系IS/SHUFE
Page 5 of 30
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库SAS方差分析(理论+程序实例)在线全文阅读。
相关推荐: