发人数。
2)单因素方差分析[2]
逐月统计男女病例人数,考察在相同时间点上男女人群发病人数是否有显著差异,给定显著性水平??0.05,分析结果为F?5.54,对应的p?0.0206?0.05(见图1) , 又查表得F2(r?1,n?r)?F0.05(2?1,48?2)?F0.05(1,46)?4.08,由于
F?F0.05(1,46),所以脑卒中发病男女人群有显著差异(matlab程序见附录2)。
图1 男女发病人群的单因素方差分析结果
5.1.2不同年龄段发病人群差异性分析
1)简单分析
不同年龄阶段发病比例为
Nx2i?2i,i?1,2,3,4,5,6 (2)
Ni?1,2,3,4,5,6分别表示其中,“40岁以下”、“40-50”、“50-60”、“60-70”、“70-80”、
“80以上”。经统计,将不同年龄阶段脑卒中病发者人数代入(2)式,得到不同年龄
阶段脑卒中病发者比例,见图2。(matlab程序见附录3)
400 %0@以下40-5050-6060-7070-8080以上
34.06#.19.88%1.75%4.73#.39%
图2 不同年龄段发病人群比例图
由图2可以看出在50岁以下的人口中脑卒中病发的人数比例较小,70-80之间脑卒中的比例最为严重,80岁以上的人脑卒中较为严重,所以高龄的人是发生脑卒中的高危人群,我们应当高度关注。
2)单因素方差分析
根据图2结果,剔除“40岁以下”和“40-50”年龄段,对其余4个年龄段进行单因素方差分析,逐月统计不同年龄段发病人群人数,考察在相同时间点上不同年龄
6
段发病人群人数是否有显著差异,给定显著性水平??0.05,分析结果为F?45.6,对应的p?0.0000?0.05(见图3) ,所以脑卒中不同年龄段发病人群有显著差异(matlab程序见附录4(tongji6.m和tongji60.m))。
图3 不同年龄段发病人群的单因素方差分析结果 5.1.3不同职业发病人群的差异性分析
1)简单分析
不同职业发病比例为
Nx3i?3i,i?1,2,...,9 (3)
N其中,i?1,2,3,4,5,6,7,8,9分别表示“农民”、“工人”、“退休人员”、“教师”、“渔民”、“医务人员”、“职工”、“离退人员”、“其它职业”。经统计,不同职业脑卒中病发者的比例,见图4。(matlab程序见附录4)
60H.06P@).370 %7.28.70%0.36%0.10%0.14%1.19%2.80%0%农民工人教师渔民退休人员医务人员职工离退人员其他职业
图4 不同职业病发者比例
由图4得出农民、工人、退休人员、其他职业的人员患脑卒中的比例偏高,说明了职业也是患脑卒中的重要因素。
2)单因素方差分析
根据图4结果,对农民、工人、退休人员进行单因素方差分析,给定显著性水平
??0.05,分析结果为F?95.36,对应的p?0.0000?0.05(见图5) ,所以脑卒中不同年龄段发病人群有显著差异(matlab程序见附录5(tongji7.m和tongji70.m))。
7
图5 不同年龄段发病人群的单因素方差分析结果
5.1.4不同月份发病者的差异性分析
1)简单分析 定义季节指数为
Sx4i?4i,i?1,2,...,12 (4)
S其中,S4i为第i月的平均人数,S为48个月的月平均人数。经统计,不同月份脑卒中病发者的比例,见图6。(matlab程序见附录6)
1.210.80.60.40.201月2月3月4月5月6月7月8月9月10月11月12月系列10.70930.88041.01440.99181.10121.03381.11891.03461.03151.03331.00991.0409 图6 2007年-2010年各月季节指数
由图6看出在五、六、七月份为脑卒中高发期,一、二月为低发期。 5.2发病率与气压、气温、相对湿度间的关系分析(问题2)
由于题目提供了环境因素(气压、温度和湿度)的8个变量,根据假设5)~8),这8个变量间具有明显的显著相关关系,所以必须做降维处理,把8个变量整合成互不相关的少数几个变量,然后再寻找发病率与这少数几个变量的关系式。这需要进行主成分分析。
5.2.1主成分分析法[3] 1)基本原理
主成分分析是把多个变量转化为少数几个新综合变量的一种多元统计方法,其基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾.其手段是将原来众多的具有一定相关性的变量重新组合成新的少数几个相互无关的综合变量(也叫抽象变量),来代替原来变量,这些新的综合变量称之为主成分.
一般地说,利用主成分分析得到的主成分与原来的变量之间有如下基本关系:(1)每一个主成分都是各原始变量的线性组合.(2)主成分的数目大大少于原始变量的数目.(3)主成分保留了原始变量的绝大多数信息.(4)主成分之间互不相关.据此我们建立数学模型. 2)数学模型
在一个统计问题中,假设我们收集到n个样品,每个样品观测到p个变量(记为,构成一个n?p阶x1,x2,?xp,为简单起见,可以设xi均值为0,方差为1,(1?i?p)的样本原始资料阵X??xij?n?p.
8
主成分分析的目的在于利用p个原始变量(x1,x2,?,xp)构造少数几个新的综合变量,使得新变量为原始变量的线性组合,新变量互不相关,新变量包含p个原始变量的绝大部分信息.这样定义x1,x2,?,xp为原始变量,y1,y2,?,ym(m?p)为新的综合变量指标,每一个新综合变量指标是p个原始变量的线性组合:
?y1?a11x1?a12x2???a1pxp??y2?a21x1?a22x2???a2pxp ? (5)
???y?ax?ax???axm11m22mpp?m同时要求满足以下几个条件:(1)yi与yj相互无关;(2)y1是x1,x2,?,xp的一切线性组合中方差最大者;y2是y1与不相关的x1,x2,?,xp的所有线性组合中方差最大者;
?,ym是z1,z2,?,zm?1分别都不相关的x1,x2,?,xp的所有线性组合中方差最大者.则新变量y1,y2,?,ym分别称为原变量x1,x2,?,xp的第一、第二、?、第m主成分.
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j?1,2,?,p)在诸主成分yi(i?1,2,?,m)上的系数aij(i?1,2,?,m;j?1,2,?,p).从数学上可以证明,他们分别是p个原始变量(x1,x2,?,xp)相关矩阵的前m个具有较大特征值所对应的特征向量,而各个新综合变量yi的方差var(yi)恰好是相应的特征值?i.各主成分的方差贡献大小按特征根顺序排列,是依次递减的,即?1??2????p?0.其几何意义是:主成分分析相当于对原坐标轴做一次旋转变换,使得新坐标系的第1轴对应于数据变
易的最大方向,第2轴与第1轴正交,且对应于数据变易的第二大方向,依次类推. 3)基本步骤
(1)确定分析变量,收集原始数据;设原始数据矩阵为X?(xij)n?p其中xij表示第i个样品(对象)在第j个变量上的取值。
(2)在进行主成分分析之前,要检验该样本矩阵是否适合于主成分分析.KMO检验是检验变量之间偏相关关系的统计量,用于检验变量间的偏相关系数是否过小. KMO统计量越接近于1,说明各变量间的偏相关系数越大,KMO统计量大于0.9,效果最好;如果统计量小于0.6,则不适合于做主成分分析.Bartlett球形检验是检验相关矩阵是否是单位矩阵,即各变量是否各自独立.
9
(3)对原始数据进行标准化,即令
*xij?xij?xjsj (6)
其中xj,sj分别为第j列元素的样本均值和样本标准差,即
1n1nxj??xij,sj?(xij?xj)2 ?ni?1n?1i?1*则X*?(xij)n?p为标准化的样本资料库.
(4)由标准化后的数据矩阵求协方差矩阵?,或者由原始数据矩阵求相关系数矩阵R.这两种方法结果相等.本文采用直接计算原始数据的相关矩阵的方法(对于数量级差别较大或者有量纲的数据宜适用).设原始数据X的相关系数矩阵为
?r11r12...r1p???rr...r21222p? (7) R???...????r?r...rnp??n1n2rij(i,j?1,2,?,p)为原变量xi与xj的相关系数,rij?rji,其计算公式为
rij??(xk?1nki?xi)(xkj?xj)n?(xk?1n (8)
ki?xi)2?(xkj?xj)2k?1(5)计算R的特征根和特征向量;
根据特征方程?E?R?0得R的特征根为?i(i?1,2,...,p),将特征根按照从大到小的顺序排列,排列后的特征根不妨仍然表示为?1??2?...?p?0.同时可得对应的特征向量u1,u2,...,up,将他们标准正交化,u1,u2,...,up称为主轴.
(6)计算所有变量的方差贡献率及累计方差贡献率;?i的方差贡献率为
ei??i??i?1p?i?1,2,?,p? (9)
i?i的累计方差贡献率为
10
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库全国数学建模大赛2012C题(2)在线全文阅读。
相关推荐: