77范文网 - 专业文章范例文档资料分享平台

sas第八章 描述性统计过程

来源:网络收集 时间:2020-03-27 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

第八章 描述性统计过程

以下过程都可用于计算基本统计量,如频数、均值等,但它们又各有特色:

UNIVARIATE 进行单变量统计,包括分位数及描绘分布图。 SUMMMARY 按观测值分组计算基本单变量统计值。分组是由

CLASS语句中的变量所决定。统计结果可输出到SAS数据集中而不产生打印输出。

MEANS 计算均值及其他描述统计量。 TABULATE 打印基本统计的复杂表格。

CORR 求变量间相关系数。 进行基本统计的其他过程还包括:

CHART 画频数、均值、总和的条形图、立体直方图、饼图

及星图。

FREQ 对分类变量计算频数分布,并作多维列联表。

SAS基本统计过程及其一些重要统计量

统计量 MEANS UNIVARIATE SUMMARY TABULATE CORR 非缺项值数(N) √ √ √ √ 缺项值数(NMISS) √ √ √ √ √ 权重和(SUMWEIGH_T) √ √ √ √ 均值(MEAN) √ √ √ √ √ 和(SUM) √ √ √ √ √ 最小值(MIN) √ √ √ √ √ 最大值(MAX) √ √ √ √ √ 全距(RANGE) √ √ √ √ 未修正平方和(USS) √ √ √ √ 修正平方和(CSS) √ √ √ √ 方差(VAR) √ √ √ √ 标准差(STD) √ √ √ √ √ 变异系数(CV) √ √ √ √ 偏度(SKEWNESS) √ √ 峰度(KURTOSIS) √ √ T统计量值(t) √ √ √ √ 大于t值的概率(PRT) √ √ √ √ 中位数(MEDIAN) √ 四分位数(QUARTILE) √ 众数(MODE) √ 输出到SAS数据集 Yes Yes Yes No Yes CLASS语句 Yes No Yes Yes No BY语句 Yes Yes Yes Yes Yes

第一节 MEANS 过程

MEANS过程对数值变量给出简单的描述性统计。

例: 数据集SCORE含有学生三门课程的成绩(见SORT过程),用MEANS过程可得到: PROC MEANS DATA=SCORE; MEANS过程由下列语句控制: PROC MEANS [选择项]; VAR 变量表; BY 变量表; CLASS 变量表; FREQ 变量; WEIGHT 变量; ID 变量表; OUTPUT [选择项];

除PROC语句之外的其他语句均为可选语句。

8.1.1 语句说明

1.PROC MEANS语句

PROC MEANS 选择项; 常用下列选择项:

DATA=SAS数据集 指出需做MEANS分析的SAS数量集名。

NOPRINT 说明不打印任何描述性统计值。此选择项仅仅是为了建

立一新的数据集时才使用。

MAXDEC=N 指出MEANS用于打印结果的最大小数位(0~8),缺省值为

2。

VARDEF=除数 指明用于方差计算的除数,缺省值是VARDEF=DF。 VARDEF=DF 用自由度(N-1)作除数。

VARDEF=WEIGHT|WGT 用权重和作除数。 VARDEF=N 用观测值数(N)作除数。 VARDEF=WDF 用权重和减1作除数.

统计量列表它们可以是N、MAEN、MAX、MIN.STD、STDERR、SUM、VAR、USS、CSS、NMISS、RANGE、T、PRT、SUMWGT、CV、SKEWNESS、KURTOSIS等18个统计量的任意组合。隐含为N、MIN、MAX,MEAN、STD。

2.OUTPUT语句

OUTPUT 选择项;

OUTPUT语句将MEANS过程产生的统计值输出到一个新的SAS数据集。 选择项包括:

OUT=SAS数据集 指定输出数据集名。

统计关键字=名字 指明新数据集中想要的统计项。并给包含这些统计项的变量起名。这些名字将作为统计值在新数据集中使用。等号右边第一个变量名代表VAR语句中第一个变量的相应的统计量;第二个名字代表

VAR语句中第二个变量的相应的统计量等等。例如: PROC MEANS; VAR X1 X2;

OUTPUT OUT=STATS MEAN=MA MB STD=SA SB; MEAN=后的第一个变量MA。代表VAR语句中第一个变量X1的均值;第二个变量MB代表VAR语句中第二个变量X2的均值。STD=后的第一个变量SA代表VAR语句中第一个变量X1的标准差;X2的标准差不输出。

若省略了 “统计关键字=” 选择项,MEANS输出一个含有N、MIN、MAX、MEAN、STD的SAS数据集。

8.1.2 举例

例1:利用MEANS过程进行单变量统计。SCORE为含学生成绩的数据集。(注意CLASS及BY语句的区别)。(yp74.sas)

PROC MEANS DATA=SCORE MAXDEC=3; VAR T1-T3; CLASS GROUP;

TITLE 'Statistics With a Class Variable'; PROC SORT DATA=SCORE; BY GROUP; PROC MEANS MAXDEC=3; BY GROUP; VAR T1-T3;

TITLE 'Statistics With By Variable'; RUN;

例2:40名麻疹易感儿接受麻疹疫苗一个月,血凝抑制抗体滴度如下表,求平均滴度。

抗体滴度 4 8 16 32 64 128 256 512 人数 1 5 6 2 7 10 4 5 有关背景知识及题目分析:

(1)抗体滴度为几何级数,必须先化成对数再求均值。设Y=LOG10(X) (2)由于需把按对数值求得的平均值再转换成滴度,即要对MEANS产生的结果作进一步处理,要使用OUTPUT语句将MEANS结果输入到另一SAS数据集,但结果不需显示因此选用了NOPRINT。 (3)变量F代表频数

(4)第二个数据步用于将均数还原成滴度。(yp75.sas)

DATA A;

INPUT X F @@; Y=LOG10(X); CARDS;

4 1 8 5 16 6 32 2 64 7 128 10 256 4 512 5 ;

PROC MEANS NOPRINT; VAR Y;

FREQ F;

OUTPUT OUT=B MEAN=MY; DATA C;

FILE PRINT; SET B;

MX=10**MY; PUT MX; RUN;

例3:在某一年级中,测得20名男学生的身高。试求出身高的平均值95%的置信区间。

求置信区间时要先求出tdf,1-a/2,此值可用TINV函数得到。程序如下: (yp76.sas)

DATA STUDENT;

INPUT XUEHAO HEIGHT @@; CARDS;

1001 175.8 1002 168.9 1003 178.2 1004 180.1 1005 169.8 1006 172.5 1007 175.3 1008 177.4 1009 168.8 1010 176.9 1011 181.1 1012 179.2 1013 178.2 1014 175.3 1015 177.6 1016 182.3 1017 173.5 1018 176.5 1019 175.2 1020 171.8 ;

PROC MEANS DATA=STUDENT NOPRINT; VAR HEIGHT;

OUTPUT OUT=B MEAN=MH STD=MS N=NUM; DATA CAL; SET B;

T=TINV(0.975,NUM-1); IN=T*MS/SQRT(NUM); L=MH-IN; U=MH+IN; PUT L U; RUN;

程序中,利用MEANS过程建立一个仅有MH(身高平均值)、MS(标准差)和NUM(人数)的数据集B。在DATA CAL中,用TINV函数求出t值。

第二节 FREQ 过程

8.2.1 简介

FREQ过程产生一维至n维的频数表和列联表。对于二维表,PROC FREQ计算统计量并给出检验。对n维表,PROC FREQ作分层分析,在层内作计算统计,频数也能输出到SAS数据集中。由于频数表对某个变量列出所有的值,可以查看这些值取值是否合理。所以它是检查数据错误的有效工具。 例:(yp77.sas)

PROC FORMAT;

VALUE VFMT LOW-<80='C' 80-<90='B' 90-HIGH='A'; DATA B;

SET SCORE;

V=MEAN(OF T1-T3); PROC FREQ DATA=B; FORMAT V VFMT.; TABLES V; RUN;

SCORE为含学生成绩的数据集,用VFMT.格式把学生的平均成绩分成A、B、C三等,由FREQ过程产生每一分数段的学生人数和占总数的百分数。

1.一维频数表 如想要一维频数表,只需在TABLES语句中简单地命名这一变量。例如: PROC FREQ; TABLES X;

产生变量X的每一水平的频数的一维表。

2.二维频数表

如要求两个变量的列联表,则在TABLES语句中用星号“*”连接两个变量。第一个变量的值形成表的行而第二个变量的值形成表的列。例如: PROC FREQ; TABLES A*B;

产生一个列联表,A的值在左边,B的值在顶端。

3.n维列联表

如你想得到三维(或n维)列联表,在TABLES语句中用“*”联接给定的三个或n个变量名。最后一个变量的值形成表的列,倒数第二个变量的值形成表的行,其他变量的每一级水平(或水平组合)形成了一层,且每层都形成了分立的列联表。

4.FREQ和其他SAS过程的比较

许多SAS过程也可能得到频数计数,PROC FREQ以具有计算卡方检验和测量二维及多维表的联系的能力而与其他过程相区别。其他过程如TABULATE能得到更普通的表格布局;SUMMARY能输出数据集;而CHART还可得到条形图和其他的图示。

8.2.2 语句说明

在FREQ过程中使用的语句是: PROC FREQ [选择项];

TABLES 请求式?/选择项;

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库sas第八章 描述性统计过程在线全文阅读。

sas第八章 描述性统计过程.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/jiaoyu/894907.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: