这条定理并不要求总体分布是正态的,甚至可以是不知道的。客观上存在着总体平均数和标准差,只要样本的单位数增多,则样本平均数x就趋近于正态分布。这和正态分布在生定理限制总体为正态,而对样本单位数不加限制的情况是不同的。
我们知道,总体成数P是服从于平均数P为方差P(1-P)的(0,1)分布,而样本成数p则是n个(0,1)变量的平均。因此中心极限定理也适用于样本成数的分布。具体说,从任一总体成数为P、方差为P(1-P)的(0,1)分布总体中,抽取容量为n的样本,其样本成数p的分布随着样本单位数n的增大而趋近于平均数E(p)=P,标准差为??p???p的正态分布,即样本成数p趋近于正态分布N(P,μp2)。而样本标准变量z?p?P?p 则趋近于标准正态分布N(0,
1)。
这条定理是中心极限定理的推广。
在实际工作中,总体变量的分布通常是不知道,样本平均数或成数的分布是否接近于正态,或接近到什么程度,起决定作用的因素是样本容量n。样本容量n越大,样本平均数或成数的分布也越接近正态。一般认为样本单位数不少于30的是大样本,抽样分布就接近于正态分布。
四、 抽样分布的正态逼近
统计量是建立在随机抽样实际观察取值的基础上,所以抽样分布都是离散型的概率分布。要估计样本统计量的取值落在某一区间的概率,最精确的方法是将统计量的所有可能取值全部列出,并计算相应的概率,编制统计变量的分布列,然后再计算指定区间内各项概率之和。但是这种方法通常计算工作量很大,对于复杂的抽样方法,甚至统计量的概率分布都难以描述,要估计统计量取值某一点或某个区间的概率就没有办法做到。
利用正态分布的有关定理,我们知道当样本的容量相对大(不少于30)时样本平均数和样本成数都趋近于正态分布,因此可以利用正态分布来近似地估计样本平均数和样本成数取值某一点或某个区间的概率。现在举例说明如下。
【例4-9】某地区高等学校考生入学考试成绩平均X=550分,标准差σ=250分,现在从考生中随机抽取100名,问100名考生的平均成绩落在540~580分之间的概率是多少?
依题意求概率P?540?x?580?先计算两个标准变量z1,z2。 z1?x1?X?540?550250100x2?X?580?550250100?1.2 ?1025?0.4
?n z2??n P?540?x?580?? ? ?
121212?P?x?X?10?Px?X?301??2??
?F?z1??F?z2????F?0.4??F?1.2?? ?0.3108??54.04% ?0.7699f(x) 540 550 580 x
图4-16 正态分布图
从以上解题中,我们可以认识到:
1. 全地区高等学校的入学考生成绩未必形成正态分布,但是100名样本平均成绩则趋近于正态分布,这是因为样本容量n=100,是属于大样本的平均数。
2. 全体考生的每人成绩的分布可能相当分散,有的成绩高有的成绩低,但样本100名平均成绩则是相当集中的,成绩在平均数550分附近的540—580分间占考生总数的54.04%。依此推算样本平均数成绩在525—575分约占考生总人数的68.27%。
【例4-10】某县粮食平均亩产X=760公斤,亩产标准差σ=380公斤。现在随机抽取400亩,求样本平均亩产在800公斤以上的概率。
依题意求P?x?800?,先计算标准变量z。 z?x?X?800?7603804001?n?4019?2.1
?? P?x?800 =?1?0.9643??1.785%
2
760 800 x
21?1?P?x?X?40??
f?x? 图4—17 正态分布图
如果全县粮食亩产量是按正态分布,则以计算亩产在800公斤以上的概率为
P?X?800??PX?X?40???1?1?P?X?X2?40??40??1???11?F?????1?0.0797??23802????=46% 。这意味着亩产在800公斤以上的可能性达到46%是相当大的。但400
亩样本平均亩产在800公斤以上的概率只有1.785%,几乎是很少可能的。这是因为样本平均数的抽样误差仅及总体亩产误差的1/20。
【例4—11】某厂零件加工不合格品率达到6%,现在从加工件中随机抽取36件,求样本不合格率在4%以下的概率。
已知总体不合格品P=6%,(1-P)=94%, ?p?依题意求概率P?p?4%?。
P?p?4%?? ?1212P?1?P?n?0.06?0.9436?4% 。
?1?P?p?P?2%???11??2%1?F??2??4%??????
?1?F?0.5????1?0.3829??30.9%
2即样本不合品率在4%以下的概率为30.9%。
4% 6% p
图4—18 正态分布图
第四节 总体参数估计的一般原理
一、科学的抽样估计方法要具备三个基本条件。
首先是要有合适的统计量作为估计量。我们知道统计量是样本变量的函数,根据样本变量可以构造多种统计量,但不是所有的统计量都能够充当良好的估计量,例如,从一个样本可以计算平均数、中位数、众数等等,现在要用来估计总体平均数,究竟以哪个样本统计量
作为估计量更合适,如果采用样本平均数作为估计量,这就需要回答样本平均数和总体平均数存在什么样的内在联系,以样本平均数作为良好估计量的标准是什么等等。只有这些问题解决了,才能通过样本的实际观察确定估计值。
其次,要有合理的允许误差范围。允许误差范围又称抽样极限误差,指样本统计量与被估计总体参数离差的绝对值可允许变动的上限或下限。离差的绝对值愈小表明抽样估计的准确度愈高,反之,就表明准确度愈差。由于统计量本身也是随机变量,所以要使所做的估计完全没有误差是难以实现的,但估计意味着也不能太大,估计意味着如果超过了一定限度参灵敏估计本身也就会失去价值。当然也不见得误差愈小就是愈好的估计,因为减少误差势必增加费用、时间,增加人力、物力、财力的负担,这样甚至会失去组织抽样调查的意义。所以在做估计的时候应该根据所研究对象的变异程度和分析任务的要求确定一个合理的允许误差范围,凡估计值与被估计值之间的离差不超过允许范围,这种估计都算是有效的。例如估计粮食亩产600公斤,允许误差范围6公斤,这意味着如果实际的粮食亩产在594~606公斤之间都应该认为估计是有效的。我们把允许误差的区间596~606公斤称为估计区间,允许意味着与估计值之比称为误差率,(1-误差率)称为估计精度,上例误差率为6/600=1%,估计精度为1-1%=99%。
再次,要有一个可接受的置信度。估计置信度又称估计推断的概率保证程度,这是估计的可靠性问题。由于抽样是随机抽样,统计量是随机变量,估计值所确定的估计区间也是随机的,在实际抽样中并不能保证被估计的参数真值都落在允许误差的范围内。这就产生要冒多大风险想念所作的估计。如果一种估计可信度很低,这就意味着所冒的风险很大,这咱估计也就没有什么价值。例如我们愿意冒10%的风险,这表示如果进行多次重复估计,则平均每100次估计将有10次是错误,90次估计正确。90%就称为置信度或称概率保证程度。在抽样估计中要求达到100%的置信度是难以做到的,但置信度小了,估计结论的可靠性太低,又会影响估计本身的价值,所以在做估计的时候,也应该根据所研究问题的性质和工作的需要确定一个可接受的估计置信度。当然估计置信度的要求和准确度的要求应该结合起来考虑,估计的准确度很高而置信度很低或准确度很低而置信度很 二、优良估计量的标准
根据样本资料对未知的总体参数进行推断的方法叫参数估计。参数估计分为点估计(Point Estimation)和区间估计(Interval Estimation),点估计是用样本统计量的值直接作为总体参数的估计值,如用样本平均数代表总体平均数,用样本成数直接代表总体成数。区间估计是根据样本统计量的值结合抽样分布理论,以一定的概率保证程度对未知总体参数给出一个估计范围。由于点估计不是正确的就是错误的,所以只有点估计是不够的,实际工作中常常使用的是区间估计。
不论是点估计还是区间估计,都有一个估计量的选择问题。估计量就是用来估计总体参数的统计量。对同一总体参数,往往可以选择若干个不同的样本统计量作为估计量,如估计总体算术平均数,可以选择样本算术平均数、样本中位数等。这样,就有必要对各种估计量进行比较,从中确定最优的估计量。通常优良估计量的标准有:无偏性、有效性和一致性。
1. 无偏性(Unbiasedness)
我们是选择某一个样本统计量来估计未知总体参数的,而样本统计量是一个随机变量。从总体中抽出所有可能的k个样本,就可以得到k个样本统计量的值。这些样本统计量的值构成一个频数分布。如果该样本统计量的频数分布的期望值等于该统计量所要估计的总体参数,则这个样本统计量就是被估计总体参数的一个无偏估计量。
例如,样本算术平均数就是总体算术平均数的无偏估计量,因为所有样本平均数的期望值等于总体平均数,即E(?)=X。而样本方差sn?2n?xi?xi?1??2n就不
是总体方差σ2的无偏估计量,因为以样本单位数n作分母计算的所有样本方差的期望值不等于总体期望值,即E?sn???;总体方差σ2的无偏估计量是
22s2n?1?即以n-1作为分母的样本方差的期望值才等于总体方差,??xi??n?1?,
2i?122n即E?sn?1???。这也正是在总体方差σ2未知时,用样本方差来代替总体方差使用的是sn?1而不是sn1的缘故。但要注意样本标准差s不是总体标准差σ的无便估计量。
很显然,无偏性是从平均意义上来评价一个统计量的,也就是说这种估计方法若
重复进行,从估计量所获得的平均数等于被估计的总体参数。而抽样时一般只抽一个样本,因此估计量只满足无偏性是不够的,在此基础上还要满足下面所讲到的有效性和一致性。
2. 有效性(Effectiveness)
当满足无偏性的样本统计量不止一个时,就有个选择的问题。因为无偏性只考虑估计值的平均结果是否等于被估计的总体参数,而不考虑每个估计值与被估计总体参数之间的差异程度的大小。我们在选择估计量时,不仅希望估计是无偏的,而且希望估计值的差异程度尽可能的小。这就涉及到估计量的有效问题。如果用来估计总体参数的两个无偏估计量中,其中一个样本统计量的方差比另一个估计量的方差小,则该统计量就是一个有效估计量。
例如,用样本平均数或总体中的任何一个变量值来估计总体平均数,这两个估计量都是满足无偏性的,即它们的期望值都等于总体均值。但这两个估计量的方差是不同的,样本平均数的方差等于?(或?n2222N?nN?1n),而总体中变量值的方
差等于σ2,因此样本平均数是更为有效的估计量。又例如,在正态总体的样本平均数中,样本平均数x和样本中位数me均是总体算术平均数X的无偏估计
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库《统计学原理》教案(10)在线全文阅读。
相关推荐: