stem x1(做x1的茎叶图)
可以看出数据分布状况,尤其是最大、最小值 step2.用tabulate、list细致寻找极端值
tabulate code if x1==极端值(作出x1等于极端值时code的频数分布表,code表示地区、年份等序列变量,这样便可找出那些地区的数值出现了错误)
list code if x1==极端值(直接列出x1等于极端值时code的值,当x1的错误过多时,不建议使用该命令)
list in -20/l(l表示last one,-20表示倒数第20个样本,该命令列出了从倒数第20个到倒数第一个样本的各变量值) step3.用replace命令替换极端值 replace x1=? if x1==极端值 去除极端值: keep if y<1000 drop if y>1000 对数据排序: sort x gsort +x
(对数据按x进行升序排列) gsort -x
(对数据按x进行 降序排列)
gsort -x, generate(id) mfirst
(对数据按x进行降序排列,缺失值排最前,生成反映位次的变量 id) 对变量进行排序: order y x3 x1 x2
(将变量按照y、x3、x1、x2的顺序排列) 生成新变量:
gen logx1=log(x1)(得出x1的对数) gen x1`=exp(logx1)(将logx1反对数化)
gen r61_100=1 if rank>=61&rank<=100(若rank在61与100之间,则新变量r61_100的取值为1,其他为缺失值)
replace r61_100 if r61_100!=1(“!=”表示不等于,若r61_100取值不为1,则将r61_100替换为0,就是将上式中的缺失值替换为0)
gen abs(x)(取x的绝对值)
gen ceil(x)(取大于或等于x的最小整数) gen trunc(x)(取x的整数部分) gen round(x)(对x进行四舍五入)
gen round(x,y)(以y为单位,对x进行四舍五入) gen sqrt(x)(取x的平方根) gen mod(x,y)(取x/y的余数)
gen reldif(x,y)(取x与y的相对差异,即|x-y|/(|y|+1)) gen logit(x)(取ln[x/(1-x)])
gen x=autocode(x,n,xmin,xmax)(将x的值域,即xmax-xmin,分为等距的n份)
gen x=cond(x1>x2,x1,x2)(若x1>x2成立,则取x1,若x1>x2不成立,则取x2) sort x
gen gx=group(n)(将经过排序的变量x分为尽量等规模的n个组) egen zx1=std(x1)(得出x1的标准值,就是用(x1-avgx1)/sdx1) egen zx1=std(x1),m(0) s(1)(得出x1的标准分,标准分的平均值为0,标准差为1)
egen sdx1=sd(x1)(得出x1的标准差) egen meanx1=mean(x1)(得出x1的平均值) egen maxx1=max(x1)(最大值) egen minx1=min(x1)(最小值) egen medx1=med(x1)(中数) egen modex1=mode(x1)(众数) egen totalx1=total(x1)(得出x1的总数)
egen rowsd=sd(x1 x2 x3)(得出x1、x2和x3联合的标准差) egen rowmean=mean(x1 x2 x3)(得出x1、x2和x3联合的平均值)
egen rowmax=max(x1 x2 x3)(联合最大值) egen rowmin=min(x1 x2 x3)(联合最小值) egen rowmed=med(x1 x2 x3)(联合中数)
egen rowmode=mode(x1 x2 x3) (联合众数) egen rowtotal=total(x1 x2 x3)(联合总数)
egen xrank=rank(x)(在不改变变量x各个值排序的情况下,获得反映x值大小排序的xrank) 数据计算器display命令:
display x[12](显示x的第十二个观察值) display chi2(n,x)(自由度为n的累计卡方分布) display chi2tail(n,x)(自由度为n的反向累计卡方分布,chi2tail(n,x)=1-chi2(n,x))
display invchi2(n,p)(卡方分布的逆运算,若chi2(n,x)=p,那么invchi2(n,p)=x)
display invchi2tail(n,p)(chi2tail的逆运算)
display F(n1,n2,f)(分子、分母自由度分别为n1和n2的累计F分布)
display Ftail(n1,n2,f)(分子、分母自由度分别为n1和n2的反向累计F分布)
display invF(n1,n2,P)(F分布的逆运算,若F(n1,n2,f)=p,那么invF(n1,n2,p)=f)
display invFtail(n1,n2,p)(Ftail的逆运算) display tden(n,t)(自由度为n的t分布) display ttail(n,t)(自由度为n的反向累计t分布) display invttail(n,p)(ttail的逆运算)
给数据库和变量做标记:
label data \(对现用的数据库做标记,\就是标记,可自行填写)
label variable x \(对变量x做标记)
label values x label1(赋予变量x一组标签:label1)
label define label1 1 \(定义标签的具体内容:当x=1时,标记为a1,当x=2时,标记为a2) 频数表: tabulate x1,sort
tab1 x1-x7,sort(做x1到x7的频数表,并按照频数以降序显示行) table c1,c(n x1 mean x1 sd x1)(在分类变量c1的不同水平上列出x1的样本量和平均值) 二维交互表: auto数据 库:
table rep78 foreign, c(n mpg mean mpg sd mpg median mpg) center row col
(rep78,foreign均为分类变量,rep78为行变量,foreign为列变量,center表示结果显示在单元格中 间,row表示计算行变量整体的统计量,col表示计算列变量整体的统计量) tabulate x1 x2,all
(做x1和x2的二维 交互表,要求显示独立性检验chi2、似然比卡
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说教育文库STATA命令应用及详细解释(汇总)(3)在线全文阅读。
相关推荐: