3﹒正态曲线的特点
(1)曲线位于x轴上方,与x轴不相交; (2)曲线是单峰的,它关于直线x??对称; (3)曲线在x??处达到峰值1; ?2?(4)曲线与x轴之间的面积为1;
(5)当?一定时,曲线的位置由?确定,曲线随着?的变化而沿x轴平移;
(6)当?一定时,曲线的形状由?确定,?越小,曲线越“瘦高”,表示总体的分布越集中,?越大,
曲线越“矮胖”,表示总体的分布越分散﹒
4.正态分布
b(a?b),随机变量X满足P(a?X≤b)????,?(x)dx,则称X的分一般地,如果对于任何实数a,ab布为正态分布﹒
正态分布完全由参数?和?确定,因此正态分布常记作N(?,?2)﹒如果说随机变量X服从正态分
布,那么记X~N(?,?2)﹒ 四、统计案例 (一)回归直线方程
(x2,y2),?,(xn,yn),有最小二乘法我们可求得其回归对于一组具有线性相关关系的数据(x1,y1),直线方程的斜率和截距分别为:
??b?(x?x)(y?y)?xy?nx?yiiiii?1nn?(x?x)ii?1n?i?12?xi?1n??x﹒ ??y?b,a2i?nx2 点(x,y)称为样本点的中心,回归直线必经过该点﹒
(二)相关性检验的方法
(1)看散点图,但依据散点图看数据对应的点是否大致在某条直线附近有较强的主观性﹒ (2)相关系数检验法:
r??(x?x)(y?y)iii?1n?(x?x)?(y?y)2iii?1i?1nn?2?xy?nx?yiii?1n(?xi2?nx2)(?yi2?n?y2)i?1i?1nn
叫做变量y与x之间的样本相关系数(简称相关系数)﹒
①|r|≤1,并且|r|越接近1,两个变量的线性相关程度越强;|r|越接近0,线性相关程度越弱﹒通常,当|r|大于0.75时,认为两个变量有很强的线性相关关系﹒
高二期末复习知识纲要 第11页
②当r?0时,表明两个变量正相关;当r?0时,表明两个变量负相关﹒ (三)误差分析
1﹒随机误差
??bx?a之间的误差,通常e为在线性回归模型y?bx?a?e中,a和b为模型的未知参数,e是y与y随机变量,称为随机误差,它的均值E(e)?0,方差D(e)??2?0﹒
(1)线性回归模型的完整表达形式:
?y?bx?a?e?﹒ ?E(e)?0?2?D(e)????bx?a预报真实值y的精度越高﹒ 在此线性回归模型中,随机误差e的方差?2越小,通过回归直线y(2)引起随机误差e的原因,大致有如下三种:一是在实际中,变量y除受变量x影响外,还受到其他因
?仅是估计值,与真实值之间存在误差;三是所选用的线性模型,?,素的影响;二是利用公式求得的ab不是理想状态下的模型,而是一种近似模型﹒
2﹒方差分析
(x2,y2),?,(xn,yn)而言,对应与它们的随机误差为对于样本点(x1,y1),??a?i?yi?bxi?a,?i称为对应?i?yi?y?i?yi?bx?,ei?yi?yi?1,2,?,n,其估计值为ei?1,2,?,n,ei?2?于点(xi,yi)的残差﹒类比样本方差估计总体方差的思想,可以用?1n21?)(n?2)作?i??,eQ(ab?n?2i?1n?2n?(xi?x)(yi?y)??i?1???b?n2??)称为残差平方和﹒可以用??和b由公式??2衡量?,为?的估计值,其中a,求出Q(ab2(xi?x)??i?1????y?bx??a?2越小,预报精度越高﹒ 回归方程的预报精确度﹒通常?
3﹒残差分析
在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用线性回归
?1,?2,?n来判断模型拟合效果,判断原始数据中是否存在可疑e?,e模型来拟合数据﹒然后,可以通过残差e?i是数据点yi和它在回归线上相应位置y?i之间的差异,数据﹒这方面的分析工作称为残差分析,其中残差e?i?yi?y?i﹒ 即e 我们可以利用残差图进行残差分析,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型
高二期末复习知识纲要 第12页
比较合适﹒这样的带状区域的宽度越窄,说明拟合精度越高,回归方程的预报精度越高﹒
4﹒相关指数R2
?)?(y?yiin2 我们可以用相关指数R2刻画回归的效果,其计算公式为:R2?1??(y?y)ii?1i?1n﹒
2 R2取值越大,说明残差平方和越小,也就是说模型的拟合效果越好﹒
(四)立性检验
1﹒量分类变量之间关联关系的定性分析 (1)分类变量
区不同的“值”表示个体所属不同类别的变量称为分类变量﹒
这里所说的“变量”和“值”不一定取的是具体的数值,都应作为“广义”的变量和值进行理解﹒例
如:对于性别变量,其取值为男和女两种﹒那么这里的变量指的是性别,同样这里的“值”指的是“男”和“女”﹒
(2)定性分析的方法 ①频率分析
通过对样本的每个分类变量的不同类别的事件发生的频率大小比较来分析分类变量之间是否有关联
关系,通常通过列联表列出两个分类变量来进行分析﹒
②图形分析
可以利用二维条形图、等高条形图来分析分类变量之间是否具有关联关系,这时因为图形的想象直观
更能说明量分类变量之间总体状态,都能形象直观地放映它们之间的差异,进而推断它们之间是否具有关联关系﹒等高条形图由于是等高的,因此它与二维条形图相比较更能直观地放映它们之间的差异的大小,特别是当样本容量差异明显时更是如此﹒
2﹒独立性检验的基本思想 (1)2?2列联表
B|,则其样本频数列联表为: 一般地,假设两个分类变量X和Y,它们的值域分别为|A,A|和|B, A A B a c a?c B b 总计 a?b c?d a?b?c?d 总计 此列联表称为“2?2列联表”﹒
(2)独立性检验的基本思想
d b?d 为了使两个分类变量相关性的评判有一个统一的标准,我们构造一个随机变量
高二期末复习知识纲要 第13页
n(ad?bc)2K?,其中n?a?b?c?d为样本容量﹒我们先假设事件H0:“X与Y没有关
(a?b)(c?d)(a?c)(b?d)2系”,若H0成立,即X与Y没有关系,则K2应该很小﹒只需计算出k2或k2的观测值n(ad?bc)2k?的大小,在H0成立的条件下,统计学家估算出如下的概率
(a?b)(a?c)(c?d)(b?d)P(k2≥6.635)?0.01,即在H0成立的情况下K2的值大于6.635的概率非常小,近似于0.01,也就是说,在H0成立的情况下,对随机变量K2进行多次观测,观测值超过6.635的频率约为0.01,如果K2≥6.635,
就可以断定H0不成立﹒因而X与Y有关系成立,并且我们有99?以上的把握认为X与Y有关系﹒
像这样利用随机变量K2来确定是否有一定把握认为“两个别类变量有关系”的方法,称为两个分类
变量的独立性检验﹒
(五)建立回归模型的基本方法
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); ??bx?a)(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y;
(4)按一定规则(如最小二乘法)估计回归方程中的参数;
(5)得出结果分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),
若存在异常,则检查数据是否有误,或模型是否合适等﹒ 【注意】学习残差时应明确一下几点:
①误差e受许多条件的影响,也受我们所选用的线性模型的影响,因为线性模型往往只是一种近似的模型﹒
②作残差图有时不够精确,也难于分辨拟合程度的好坏,因而多数情况下,选用计算相关指数R2 来说名拟合效果﹒
③既可以对某组数据采用集中不同的回归方程进行分析,同时也可以比较几个R2的值,选择R2大 的模型作为这组数据的回归模型﹒ ④特别注意以下四个问题:
a.回归方程只适用于我们所研究的样本的总体﹒
b.我们所建立的回归方程一般都有时间性﹒
c.样本取值的范围会影响回归方程的适用范围,一般不超过这个适用范围,否则,将没有适用价
值﹒
d.不能期望回归方程得到的预报值就是预报变量的精确值,事实上,它是预报变量的可能取值的
高二期末复习知识纲要 第14页
平均值﹒
(六)处理回归模型的拟合效果问题的方法
通常利用R2来比较两个模型拟合的效果,R2越大,拟合的效果就越好﹒对于给定的样本点
a)?e??y?f(x,(1)?和(2)(x1,y1),(x2,y2),?,(xn,yn),两个含有未知参数的模型:2E(e)?0,D(e)????1b)????y?g(x,b可以是向量)都是未知参数,可以按如下的步骤来比较它们的,其中a和b(a,?2D(?)??2??E(?)?0,拟合效果:
?分别是参数a和b的?),其中a?和b?(1)?f(x,?)与y?(2)g(x,①分别建立对应于两个模型的回归方程yab估计值;
2②分别计算模型(1)、模型(2)的R12、R2﹒
22③若R12?R2,则模型(1)的拟合效果比模型(2)好;若R12?R2,则模型(1)的拟合效果不如模型
(2)﹒
(七)独立性检验的方法
x2}和{y1,y2},其样本频数列联一般地,假设有两个分类变量X和Y,它们的可能取值分别为{x1,表为:
x1 y1 a y2 b 总计 a?b c?d a?b?c?d x2 c 总计 a?c d b?d 判断H1:“X与Y有关系”成立的可能性的方法有: (1)运用等高条形图粗略地判断﹒
(2)利用独立性检验来考察两个分类变量X与Y是否有关系,并且能较精确地给出这种判断的可靠程度﹒具体的做法是:
①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误概率的上界,确定临界值k0﹒ ②根据观测数据计算得到随机变量K2的观测值k﹒
③如果k?k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0),否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”﹒
高二期末复习知识纲要 第15页
【注意】(1)适用K2的统计量做2?2列联表的独立性检验时,要求表中的4个数据都不小于5﹒
(2)计算得检验随机变量K2的观测值k时:
①如果k≥10.828,在犯错误的概率不超过0.001的前提下认为“X与Y有关系”; ②如果k≥7.879,在犯错误的概率不超过0.005的前提下认为“X与Y有关系”; ③如果k≥6.635,在犯错误的概率不超过0.01的前提下认为“X与Y有关系”; ④如果k≥5.024,在犯错误的概率不超过0.025的前提下认为“X与Y有关系”; ⑤如果k≥3.841,在犯错误的概率不超过0.05的前提下认为“X与Y有关系”; ⑥如果k≥2.706,在犯错误的概率不超过0.10的前提下认为“X与Y有关系”; ⑦如果k?2.706,就认为没有充分的证据支持“X与Y有关系”﹒
(3)虽然可以通过图形和列联表数据直观地判断两个分类变量是否有关,但还是需要用独立性检验的方法确认上述结论﹒这是因为图和表都来自于样本数据,它们是总体的一个代表,它们反映出的这种相关性的特征能够在多大程度上代表总体,需要用独立性检验的方法来确认﹒
高二期末复习知识纲要 第16页
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库高二期末复习(3)在线全文阅读。
相关推荐: