第一章 导论
1、解释研究、研究方法论的内涵。
《辞海》研究定义——用科学方法探求事物的本质和规律。埃思里奇研究定义——研究 是获取和证实新的可靠知识的系统探讨。因此,研究是寻求解释(即寻求事件、现象、关系 和原因的解释)的一个过程。
研究方法论是探讨研究工作过程的规范和结构,亦即是研究逻辑问题,阐明如何去规范 做研究、撰写学术论文,是提高研究工作质量和效率的一门学问。 2、何为基础研究和应用研究?理论研究和实证研究? 研究的分类
按功能的分类:基础研究是指认识自然现象、揭示自然规律,获取新知识、新原理、新方法的研究活动。应用研究指为获得新知识而进行的创造性的研究,它主要是针对某一特定的实际目的或目标。
按研究目的分类:描述型研究(description research)、解释型研究(explanation research)和规范型研究(prescription research)。
按论证方法分类:实证研究(empirical research)是根据假设去寻求论据,从现实资料和数据来证实或证伪所提出的假设。实证研究(theoretical research)眼光向下,寻找事实。理论研究从更高抽象层次的公理、定律、法则或学说出发,运用逻辑推理得出支持或否定假设的结果。理论研究则眼光朝上,寻找公理、原理。
3、简述研究过程的一般步骤。 第一步:提出研究问题 第二步:明确研究目标 第三步:计划和设计研究 第四步:产生研究结果
第五步:解释分析结果并引出结论 第六步:研究结果的传播 4、方法与方法论。
埃思里奇将方法定义为:“用于完成一个既定目标的具体技术、工具或程序。”埃思里奇将方法论定义为:“对给定领域中进行探索的一般方法的研究。” 第二章 文献综述
1、解释CSSCI、CSCD、SCI、SSCI的含义。
SCI:《科学引文索引》(Science Citation Index, SCI)是由美国科学信息研究所
(ISI)1961年创办出版的引文数据库,其覆盖生命科学、临床医学、物理化学、农业、生物、 兽医学、工程技术等方面的综合性检索刊物,尤其能反映自然科学研究的学术水平。SCI是 目前国际上三大检索系统中最著名一种,许多国家和高校均以被SCI收录及引证的论文情况来作为评价学术水平的一个重要指标。
SSCI:《社会科学引文索引》(Social Sciences Citation Index),为SCI的姊妹篇,由美国科学信息研究所创建,是目前世界上可以用来对不同国家和地区的社会科学论文的数量进行统计分析的大型检索工具。内容覆盖包括人类学、法律、经济、历史、地理、心理学等55个领域,收录文献类型包括:研究论文,书评,专题讨论,社论,人物自传,书信等。2001年收录社会科学领域内1700余种最具影响力的学术刊物。
CSSCI:《中文社会科学引文索引》(Chinese Social Science Citation Index)英文名称首字母缩写,用来检索中文社会科学领域的论文收录和文献被引用情况。由南京大学研制而成,我国人文社会科学评价领域的标志性工程。CSSCI的来源期刊或来源文献,不仅包括中国(内地、香港、澳门、台湾),而且将包括欧美等各国出版的中文人文社会科学学术期刊。目前收录包括法学、管理学、经济学、历史学、政治学等在内的25大类的500多种学术期刊。 CSCD:中国科学引文数据库(Chinese Science Citation Database),中国科学院文献情
报中心创建于1989年,收录我国数学、物理、化学、天文学、地学、生物学、农林科学、医药卫生和环境科学等领域出版的中英文科技核心期刊和优秀期刊千余种。中国科学引文数据库内容丰富、结构科学、专业性强、数据准确规范、检索方式多样且完整,被誉为“中国的SCI”。
中文核心期刊:目前国内有7大核心期刊体系:北大图书馆“中文核心期刊”、南大“中文社会科学引文索引来源期刊(CSSCI)”、中国科学技术信息研究所“中国科技核心期刊”、中国社科院文献信息中心“中国人文社会科学核心期刊”、中国科学院文献情报中心“中国科学引文数据库(CSCD)来源期刊”、中国人文社会科学学报学会“中国人文社科学报核心期刊”。
2、如何查找精品文献? 从经济学辞典中找线索;
?从经济学专业手册(handbook)中找线索; ?浏览相关专著中的文献综述及目录;
?借助期刊数据库或图书馆的目录索引,从名刊中寻名作; ?请专家介绍或借助同事交流获取名家名著信息。 3、撰写文献综述的基本要求。
文献综述是文献综合评述的简称。指在全面搜集、阅读大量的有关研究文献的基础上, 经 过归纳整理、分析鉴别,对所研究的问题(专题)在一定时期内已经取得的研究成果、存在 问题以及新的发展趋势等进行系统、全面的叙述和评论。
引言:撰写综述的原因、意义、文献的范围、正文的标题及基本内容提要。 结论:概括指出自己对该课题的研究意见,有待解决的问题,新的研究方向和研究建议等。 要求一:文献综述要紧紧围绕课题研究问题,确保所述的已有研究成果与本课题研究直接相关,其内容既能系统全面地反映研究对象的历史、现状和趋势,又能反映研究内容的各个方面。
要求二:文献综述应有述有评。不应是对已有文献的重复、罗列和一般性介绍,而应是对以往研究的优点、不足和贡献的批判性分析与评论。因此,文献综述应包括综合提炼和分析评论双重含义。
要求三:文献综述要突出“综述”,要分析归纳整理,要文字简洁,尽量避免大量引用原文,要用自己的语言把作者的观点说清楚,从原始文献中得出一般性结论。
要求四:综述要全面、准确、客观,用于评论的观点和论据最好来自一次文献,尽量避免使用别人对原始文献的解释或转述。
?要求五:综述所引述的文献应有所选择,尽量是重要文献、经典文献。 4、如何利用Web of science查找文献?
Web of Science是大型综合性、多学科、核心期刊引文索引数据库,包括三大引文数据 库(科学引文索引(SCI)、社会科学引文索引(SSCI)和艺术与人文科学引文索引(Arts & Humanities Citation Index,A&HCI)),以ISI Web of Knowledge作为检索平台。 Web of Science数据库检索主页面进入时提供“简易检索”与“全面检索”两种选择。 简易检索共有三个检索入口:主题、人名、地名检索,简易检索的结果显示控制在100 条以内。
全面检索则提供综合检索与引文检索两大途径。综合检索是对来源文献的检索,共包括 主题检索、著者检索、来源期刊检索和著者地址检索(著者地址检索可按机构名、城市名、 国名甚至邮政编码检索)四大项,结果显示控制在500条之内;引文检索的入口包括被引文 著者、被引文献(如被引期刊缩写、被引书名或被引专利号等,但不得超过20个字符)和 被引文年代三项。
第三章 研究问题的选择
一、请谈谈硕士论文选题的注意要点。 1.从兴趣出发选择题目。 2.大范围调研,是选题的基础。首先精读一两篇好的综述性文章对所研究的领域进行整 体的把握。然后大范围调研,大量阅读文献,熟悉你的研究对象,才能对课题的价值和意义 有比较准确的把握。
3.先广泛选题再逐渐明确。选题前广泛浏览各种学术论文标题,帮助自己找到选题。并
了解可以得到相关资料,避免预先确定选题后而找不到研究资料导致的效率浪费。谨防题目 太狭隘,而无法找到足够数据。
4.难度选择与课题可行性。论文选题难度应适中,难度的选择应根据自身条件和研究资 源进行选择和调整。
5.前沿性与现实意义。
3.不要把“论文选题”当“论文标题”。且论文题目要具体到可以让人掌握足够的相关 信息。
“论文选题”是确定研究的方向、范围、对象。
“论文标题”是在“论文选题”确定后,用文字符号对“论文主题”即论文的中心论点给 予概括,即所谓点题。
4.要选择“科研领域的问题”中的“真实问题”中的“能解待解问题”作为选题。 谨防选择“非科研领域的问题”、“科研领域的问题”中的“虚假问题”和“真实问题” 中的知识性问题(避免重复性研究)和无法解决的问题。 5.做好论文的文献检索和查新,做到查全和查准。
6.选题应能够发现问题并解决,而不只是纯粹报告数据和信息。 7.公开做论文选题报告,规范选题报告书。
选题报告书在于对选题的目的和依据、选题的理论意义和现实意义、选题的基本内容、 研究方法、技术路线、预期水平、可能遇到的困难和问题、创新点、工作量、工作进度等进 行说明和展现。
8.硕士论文选题的主要误区:不与导师沟通,盲目选题或过分依赖导师。 二、何为硕士论文的创新点?如何归纳?
美国的菲利普斯教授把博士生论文的\独创性贡献\创新,归纳为十五种类型。硕士论文参照: 1、在前人做出的独创性工作的基础上前进;
2、在导师提出的可能做出独创性成果的方向研究;
3、在并非独创性的科研工作中提出一个独创性的方法、视角或结果; 4、在证明他人的观点中表现出独创性(方法、途径等); 5、对前人提出的假设的实证性研究,或提出新的实证性方法;
6、首次对某一问题进行综合性表述(首次相关性研究,同样是独创性成果); 7、使用已有的材料做出新的解释(对前人发现的现象、实验结果做出新的解释);
8、在本国首次做出他人曾在其他国家得出的实验结果(被封锁的实验方法、科研成果); 9、将某一方法应用于新的研究领域; 10、为一个老的研究问题提供新证据;
11、应用不同的方法论、进行交叉学科研究(研究方法的创新)。 第四章 理论建构
一、理论的构成一般包括哪些部分? 1、概念和变量。
概念是理论的基本元素,理论建立在概念基础上。概念反映事物成为自身并同其它事物区分的本质属性。概念具有内涵(是什么)和外延(有哪些)两方面的特性。概念化是将具体现象概括成抽象概念的过程。
变量是对于概念的操作化和转化,使得原来抽象的概念能够被观察到并且可以测量。操作化是将抽象的概念转化为具体的(可观测的)指标的过程。 2、命题和假设。
命题是用抽象概念陈述现象之间的关系;假设是将命题具体化和操作化。 3、机制或原理。
仅命题或假设不足以构成理论,理论更重要的方面是解释概念或变量之间存在某种关系的原因。理论对人类行为、组织现象或过程提供根本的解释。 4、边界条件。
理论使用的对象是谁、在什么场合适用以及什么时候适用来界定理论的边界。
(弗雷德里克·赫茨伯格Herzberg的双因素理论。影响人的行为的需要有两种因素:保健因素,激励因素)
二、理论的建构的主要方法有哪些?
1、深化。指研究者在已有理论的基础上增加新成分,使得原理论更全面具体、更精确严谨,从而增加理论的解释力和预测力。
2、繁衍。指研究者从其他领域借鉴某个理论或思想应用到新领域。
3、竞争。针对某个已经完全建立起来的理论,提出新的理论,与原理论做出针锋相对的解释。新理论以令人信服的证据展示原理论的重大缺欠,提出另外的解释甚至替代原来的理论。(梅奥的人际关系学说、赫伯特·西蒙的有限理性决策:著《管理行为》)
4、整合。在两个或两个以上已经建立起来的理论基础上创造一个新的理论模型。 第五章 调查研究法
一、请谈谈调查问卷设计的注意要点。 1、设计的问题应能让受访者读懂。
2、研究者设计问题时尽量不要让受访者看出他们的答案会受到怎样的评判,这就可以 减少修饰答案。
3、避免缩略语或谑称。
4、避免含意不清的表达,如最近。
5、避免带有偏见的问题。如你喜欢这部很好看的书吗? 6、避免使用双重意思的词句和问题。
7、避免使用诱导性的问题,避免将自身的价值取向带入问题。 8、避免使用答卷者须依赖记忆才能回答的问题。 9、避免使用双重否定的问句。
10、避免不平衡或重复的回答范畴。
11、避免激发答卷者为满足社会期望值而答题的动机。 12、问题要符合被调查者的水平。 ? 13、问题数量要适当控制。
14、尽量减少详细的答案,可用宽泛类别作答。如问工资时给个区间而不是具体数字。 15、对假设性和因果关系问题要谨慎。
16、答案设计:与问题匹配;语言简单易懂;答案无交叉、无遗漏、无偏性。 18、主观变量数据清理:社会期许式作答、顺从式作答和两极式作答。 (1)对于社会期许式作答采用的方法有社会期许平衡法(即问题和答案的设计上尽量降低社会期许:增加答案的选项降低社会期许)、压力缓解法(为了缓减压力,调查时不应该有无关的人在场、注意提问方式方法甚至让被访者采取自填方式)。
(2)顺从式作答往往出现在问题抽象性较高、有较高难度的情况下,被调查者不愿多加思考,总是给予肯定作答。对于这类问题的答案设计不要采取“是”和“否”或“同意”“反对”。应把正反两个意思用两种不同的陈述表达出来。
(3)对于两极式作答或中庸作答,则在答案设计上采取措施。中国人一般偏向于中庸作答,所以尽量避免5段或7段答案的设计,应采取4段或6段。 二、请谈谈进行调查问卷访谈时应注意的事项。 1、访谈时应注意礼貌,并有耐心。
2、善于追问:对于一些重要问题,特别是开放式问题。 3、对受访者强调提供答案准确的重要性。 ? 4、调查者尽量减少对受访者的影响。
5、及时为受访者解释关键术语的确切定义。 6、根据受访者的答题情况调整问题。
7、简单精炼地记录答案,专注于工作的实质性方面。
8、访谈中的非语言控制:访谈员应通过各种非语言交流方式,随时关注双方表情与动作(肢体语言、目光等)的变化控制访问过程。 9、进行首日调查的总结。 三、常见的抽样方法各有何优缺点?
1、简单随机抽样:根据研究目的选定总体,首先对总体中所有的观察单位编号,遵循随机原则,采用不放回抽取方法,从总体中随机抽取一定数量观察单位组成样本。
优点:操作简便易行;随机原则排除研究者自觉或不自觉的偏见;随机原则引入概率理论,提供了计算参数值和抽样误差的基础。
缺点:总体过大时编号工作量大;样本分散,实地访问难。
2、系统抽样:先将总体的观察单位按某顺序号等分成n个部分,再从第一部分随机抽第k号观察单位,依次用相等间隔,机械地从每一部分各抽取一个观察单位组成样本。
优点:实施简单,因只有一个初始单元需要随机抽取;得到一个按比例分配的样本,抽样误差较小。
缺点:仍需对每个观察单位编号;样本分布在研究总体涉及的所有地理区域,产生高昂的交通费等。
3、分层抽样:先将总体按某种特征分成若干层,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。
优点:与简单随机或系统抽样相比,分层抽样能减少抽样误差,提高样本的代表性;简单随机或系统抽样很可能漏掉总体中比例很小的类别元素,则选择分层抽样。 缺点:应尽量使层内差别小而层间差别大,以提高效率。
4、整群抽样:先将总体划分为若干个“群”组,每个群包括若干个观察单位,再随机抽取n个群,被抽到的各群的全部观察单位则组成样本。
优点:在较大规模的现场调查中,易组织,较节省,效率高。 缺点:若各群间的差异较大,该抽样方法的误差较大。 四、请谈谈如何确定调查研究中的样本规模?
样本量的大小受许多因素制约,如调研的性质、总体指标的变异程度、调研精度、样本设计、回答率、项目经费和时间等。满足基本要求的样本容量:从参数估计的角度:n>3×解释变量数目;从检验的有效性角度:n>30(显著性的检验)。 五、请谈谈进行调查问卷清理时应注意的事项。
进行严格的问卷复查。最有效的时机:问卷调查完的当天晚上。
进行调查问卷清理时应注意避免或减轻非随机误差。即录入误差、无回答误差、回答偏 差、记录和编码偏差。
1、对于录入误差:尽量避免或减少问卷记录信息转换为机读格式存储信息过程所产生的 录入错误。可以采用双录检验,比较、判断和修正。 2、对于无回答误差:尽量淘汰掉有这类错误的问卷。
3、对于回答偏差:研究员应尽可能表达清楚自己的调查问题,因此研究员应多培训多研 究。
4、对于记录和编码的偏差:可以多人同时记录,再整合。
5、正确判别与处理野值和极值:对比问卷所记录的相应信息加以分析、处理。如果是录 入错误或编码错误则应更正,如果不是的话则应做另外单独的数据处理。
6、客观变量的逻辑检验:最大的限度的确保机读存储格式与问卷记录信息一致。对于问 卷信息是否与存在于被访者那里的真实信息一致,则需要通过进一步的逻辑检验和资料分析 加以检测。可以通过电话回访或二次访谈来确定信息的真实存在状态。 第六章 案例研究法
1、请谈谈你对案例研究法利弊及适用范围的认识? 案例研究法的利处:
1、案例研究不仅对现象进行详实的描述,更对现象背后的原因进行了深入的分析,既回答“怎么样”和“为什么”的问题,有助于研究者把握事件的来龙去脉和本质。
2、案例研究来源于实践,没有经过理论的抽象与精简,是对客观事实全面而真实的反映,能够增加实证的有效性。
3、案例研究包含真实情境中的各种要素及特殊现象、突发现象,研究者在进行案例研究的过程中可能会发现一些前人没有觉察到的原因、现象或者结果等变量,这往往会成为案例研究中隐含的、有待检验的假设,成为以后研究的基础。 案例研究法的弊处: 同样具有局限性,比如:搜集数据的复杂性,结果缺乏普遍性等。所以研究者需要扬长避短,让自己的研究内容更加严谨、科学、完善。 使用范围:
研究的问题类型是“怎么样”和“为什么”;研究对象是目前正在发生的事件;研究者 对于当前正在发生的事件不能控制或极少能控制。(探索性案例研究、描述性案例研究、因 果性(解释性)案例研究)
2、简述案例研究法的主要步骤。 三大阶段、八个步骤 ? 1、准备阶段。 启动:界定研究问题。
研究设计与案例选择:单案例单层次、多案例单层次、单案例多层次、多案例多层次(理论抽样:拓展理论-选较为极端的案例,复现理论-选条件类似的案例,验证理论-选符合理论要件的案例)。
研究工具与方法选择:采用多元资料搜集方式;多研究者;多资料源(可互相印证,可靠性较高)。
? 2、执行阶段。
资料搜集:反复进行资料搜集与分析,包括现场笔记;采用弹性且随即应变式的资料搜集方法。
资料分析:案例内分析;多案例时进行案例间比较,以了解跨案例间的异同,寻找跨案例的共同模式。
形成假设:针对各项构念,进行证据的持续复核。? 3、对话阶段。
文献对话:主要目的是将获得的研究结果与既有的理论或概念进行比较,以促进理论或 构念的演化。与类似文献互相比较,与矛盾文献互相比较。
结束:现实上的考虑(时间、经费;案例对象配合);研究上的考虑(案例所提供的信 息是否达到饱和)。 第七章 实验研究法
1、请对比实验研究法、调查研究法和案例研究法。
研究的问题类型是“怎么样”和“为什么”;研究对象是目前正在发生的事件;研究者 可以直接地、精确地、系统地控制事件过程。包括实验室实验和实地实验。
注:Frederick Taylor泰罗:开创管理实验,科学管理之父,《科学管理原理》;Vernon Smith弗农·史密斯,2002年诺贝尔经济学奖获得者,实验经济学之父,论文《市场行为的实验性研究》被认为是实验经济学诞生的标志。 2、请谈谈你对实验研究步骤的认识? 1、确定研究问题 ? 2、陈述研究假设 ? 3、设计实验进程 ? 4、确定研究对象 ? 5、选择研究工具
? 6、进行实验观察 ? 7、整理分析资料 ? 8、撰写研究报告
3、如何控制实验研究的内部效度和外部效度? 内部效度(internal validity)指在多大程度上我们能够确认因变量的变化确实是由自 变量的变化所引起的。外部效度(external validity)指在多大程度上一个实验的结果能 从它自身的被试和实验环境中被扩展到其他的被试和实验环境中去。
目的一:设法控制实验情境,安排实验变量,控制其他可能发生影响的变量,目的是肯 定应变量的变化确是由自变量的变化而产生。目的二:企图将实验研究的结果拿来推广应用, 希望能够对同类现象进行解释、预测和控制。
(1)影响内部效度的威胁因素:偶然事件,试验者偏差,测量手段和成熟程度。
(2)影响外部效度的威胁因素:样本的代表性,传递效应,霍桑效应,需求特性,安慰剂效应。
第八章 二手数据开发
1、请列出各自专业领域国内国际常用的二手数据库。
1、美国: 旅游助手、休闲旅游数据库;国家旅游数据库;餐饮、旅游观光数据库(美国普渡大学制作的(LRTI)、英国牛津布鲁克斯大学和萨里大学联合制作的AHT、美国康乃尔大学制作的CHI);亚太旅游交通运输数据库等。
2、英国:旅游数字图书馆;餐饮和旅游管理数据库;伦敦大都市休闲旅游数据库等。 3、我国:1)国家海洋信息中心制作的中国滨海风景名胜资源数据库、中国科学院制作的旅游数据库、中国数字图书馆工程的地方旅游资源库。2)中国试验型数字图书馆项目:中国科学院知识创新工程建设了“旅游资源数据库”;文化旅游资源库”。中国高等教育文献保障系统(CALIS)建设了“敦煌学数据库”、“长江资源数据库”等。北京第二外国语学院建设的“中国饭店产业信息数据库”、“旅游影响与可持续发展数据库”、“旅游特色资源库”。 2、简述二手数据的特点。
基于二手数据的样本量通常很大,样本可以具有时间跨度以获得纵向数据; ?二手数据通常具有较高程度的客观性; ?二手数据具有高度的可复制。
把定性数据转化为定量数据:就是把采用定性形式的原始二手数据,通过分析、提炼和编码,把定性形式的二手数据转化成矩阵结构化的定量数据,为回归分析和检验理论假设提供强有力的实证基础。
3、简述中国工业企业数据库主要应用领域,及对论文选题的启示。 1、企业生产率;
2、国际贸易:更具体地说是考察企业出口与生产率的关系; 3、外商直接投资;
4、研发:企业研究开发( R&D) 行为; 5、民营化;
6、公司金融:研究企业的投资融资和避税行为;
7、产业集聚:利用企业层面的数据,得到行业或地区层面的加总数据,反映中国工业的 产业集聚现象;
8、宏观政策的微观影响;
9、其他:与工业企业数据库有关的其他经验研究主要聚焦于就业问题。 第九章 数据分析方法的选择
1、变量的测度等级有哪四种?有何差别?
变量的测度等级直接关系到统计分析方法的选择。名义测度、序次测度、间距测度、比 率测度。
名义测度(norminal measurement)是最低的测度等级。其变量的值只代表类型的编码, 数值之间无实际意义的量的关系。(比如性别。)
序次测度(ordinal measurement)的量化水平高于名义测度,即其所包含信息量大于名 义测度等级的变量。序次测度等级的变量编码既包含分类作用,也存在量的关系。(比如受 教育程度,1、2、3、4、5分别代表文盲半文盲、小学、初中、高中、大学。随着受教育程 度的提高,编码值越来越大。)尽管不能准确描述这一差异的大小,但可应用于不等式计算。 间距测度(ratio measurement)等级的量化程度更高,其取值不再是类的编码,而是采 用一定单位的实际测量值。不仅可以知道两个变量值存在差异,还可以进行加减法计算(差 与和都有实际意义)。但其变量的0值不是物理意义上的绝对0,不能乘除。(10摄氏度不 能说是5摄氏度的2倍,因换算成K温度后便不再)。
比率测度(ratio measurement)是最高级的测度等级,其除了具备间距测度等级的所有 性质外,还可计算比率。只有变量的0值不是人为制定的中介值,而是绝对的0值(没有再 比它更小的取值)时,两值的比率才能有确定的意义。(K温度中0度成为绝对0度)。 测度等级越高,变量所包含的信息越多。对于同一个变量,较高测度等级不但包含较低 测度等级全部信息,还附加其他信息。因此,较高测度等级的变量实际上可以降级使用。统 计分析中经常采用降级使用。(比如序次测度变量作为名义测度变量使用,它们称为分类变 量;将比率测度变量作为间距测度变量使用,它们称为测量型变量)。 2、常见的社会统计分析方法有哪些?它们分别适用什么样的情况? ? 1、描述性分析
? 2、相关分析:一般相关、典型相关
? 3、方差分析:一元单因素、一元多因素、多元方差分析
? 4、回归分析:一般线性回归、稳健回归、路径分析、逻辑斯蒂回归,计数变量回归分析等
? 5、鉴别分析
? 6、对数线性模型、对应分析
? 7、生存分析/事件史分析、时间序列分析 ? 8、结构方程模型、潜在类别分析 ? 9、多水平模型/分层线性模型 ? 10、因子分析和聚类分析
当因变量和自变量都在一个层次,都是直接度量的显变量时:
1、相关分析:能解释两个变量之间是否有显著的关系,以及关系的强度。(假设:年龄与年薪显著相关?) 2、方差分析。
一元单因素方差分析:要求因变量为定距定比变量;能解释因变量在自变量的不同类别上的平均水平是否有显著差异。(假如:不同性别的人,年薪的平均水平也有差异?) 一元多因素方差分析:要求因变量为定距定比变量;能解释因变量在自变量的不同类别上的平均水平是否有显著差异;能解释交互效应的作用。(假如:不同性别,不同年龄组的人,年薪的平均水平也有差异?) 3、回归分析。
一般线性回归分析:要求满足高斯假定,并且要求因变量为定距定比变量;能解释一个变量的变化如何线性地影响另一个变量的变化。(假设:在控制了年龄、性别的情况下,随着人们受教育年限的增加,人们的年薪也会随着增长?) 稳健回归分析:要求因变量为定距定比变量;能解释一个变量的变化如何线性地影响另一个变量的变化;和一般线性回归的方法几乎一样,唯一的区别在于它更稳健,不受离群值的影响;和一般线性回归并。(假设:在控制了年龄、性别的情况下,随着人们受教育年限的增加,人们的年薪也会随着增长?当年薪值出现不可删除的离群值时。)
路径分析/通径分析:要求因变量为定距定比变量,满足OLS线性回归的假定条件;能解释一个变量的变化如何线性地影响另一个变量的变化;是多个一般线性回归的路径组合。(假设:在控制了年龄、性别的情况下,随着人们受教育年限的增加,人们的年薪也会随着增长?在控制了某些变量的情况下,年薪的增加会导致工作绩效的增加?教育→年薪→工作绩效) 计数变量回归分析:要求因变量为表示一段时期内的事件发生次数的变量;能解释一个变量的变化如何导致因变量的发生率的倍数变化。(例如,控制了其他变量之后,每多读1年书,一年内吵架的平均次数是原来的几倍)
计数变量回归分为四种: 泊松回归(等离散时使用); 负二项回归(过离散时使用);
零膨胀的泊松回归(等离散,并且0较多,并且0能够区分出两类情况,即永远都为0的一类,和有可能会从0次变为1次,2次?的一类);
零膨胀的负二项回归(过离散,并且0较多,并且0能够区分出两类情况,即永远都为0的一类,和有可能会从0次变为1次,2次?的一类)。
5、鉴别分析:鉴别分析是进行统计鉴别和分组的技术手段,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。 定类变量时:
二分类变量的logistic回归分析:要求因变量虚拟变量;能解释一个变量的变化如何导致因变量的发生比的倍数变化。(例如,控制了其他变量之后,每多读1年书,成为富人的发生比是原来的几倍;发生比:成为富人的概率/不能成为富人的概率)
序列变量的logistic回归分析:要求因变量为定序变量;能解释一个变量的变化如何导致因变量的发生比的倍数变化。(例如,控制了其他变量之后,每多读1年书,属于较高层次薪资水平和较低层次的概率之比是原来的几倍)
多分类变量的logistic回归分析:要求因变量为定类变量;能解释一个变量的变化如何导致因变量的发生比的倍数变化。(例如,控制了其他变量之后,每多读1年书,属于工薪族和资产族的概率之比是原来的几倍;假设:社会分为工薪族、啃老族、资产族三个类别的人群,在控制了年龄、性别的情况下,随着人们受教育年限的增加,人们属于资产族的概率也会增加?)
对数线性模型:研究对象是多个定类变量;研究目标在于不同类别(包括交互项)之间是否有显著的差异;没有因变量、自变量之分,都叫做因素(factor);可以在控制其他变量的情况下,研究任意两个变量之间的关联。
对应分析(Correspondence Analysis):也称关联分析,通过分析由定类/序变量构成的交互表来揭示变量间的联系。与对数线性模型类似,研究对象是多个分类变量,解释类别之间的差异。
在自变量中加入时间变量:
事件史分析(event history analysis):研究事件发生的方式和影响它的因素,通常包含事件的时间顺序。研究目标是某些变量如何对生存(或经历某一事件)的概率产生影响。
生存分析(survival analysis):将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。事件史分析的源流之一就是生存分析。二者分析方法几乎一致。
时间序列分析:指将某一统计指标数据按照时间顺序排列起来而形成的统计序列,也称时间数列或动态数列。用途:现象在具体时间条件下的发展状况和结果;进行各种动态对比分析,研究发展变化的方向和程度;分析发展变化趋势及其规律;根据发展变化趋势与规律的分析,可以进行动态预测。
当因变量和自变量都在一个层次,不都是直接度量的显变量时(潜变量无法直接观察到或测量到的变量,称之为潜变量(latent variable)。例如:文化,信任,忠诚??):
结构方程模型(structural equation model, SEM)):一种建立、估计和检验因果关系模型的方法。模型中既包含有可观测的显变量,也可包含无法直接观测的潜变量。结构方程模型可以替代多元回归、路径分析、因子分析、协方差分析等方法,清晰分析单项指标对总体的作用和单项指标间的相互关系。
潜分类分析(latent class analysis, LCA):根据受访者在一组观测变量上的作答,能将受访者分成几类,分别属于什么类别,属于某个类别的概率有多大;可以获得一个潜在类别变量,也可以获得多个潜在类别变量。
当在一个层次内,有2个或多个的因变量时......
(因变量为定距/定比变量) 多元方差分析:因变量为定距变量且有2个或以上,自变量为定类变量。典型相关分析:两组定距变量之间的相关分析。 当因变量和自变量不都在一个层次,并且做出因果假设时......
多层(多水平)数据指的是观测数据在单位上具有嵌套(Nested)的关系。(如学生
嵌套于学校,居民嵌套于社区。)
分层模型(多水平模型):解释因变量的因素中包括宏观变量(组变量);不同组的回归系数不同,或者不同组的平均差异也显著,从而显示出组变量对因变量有影响。 当需要将变量缩减,或者将案例聚类时......
因子分析:探索性因子分析(exploratory factor analysis):目标是探求观测变量内部隐含的结构;验证性因子分析(confirmatory factor analysis):对观测变量事先形成理论架构,然后通过因子分析来验证数据模式是否为之前所预期的形式。验证性因子分析是结构方程模型的子模型。 聚类分析法:根据所选定的变量的特征对研究对象进行分类,使得同一类中高度同质,不同类中高度异质。对案例的聚类叫做Q型聚类,对变量的聚类叫做R型聚类。 3、如何根据变量的特点选择合适的数据分析方法?
第十章 Stata软件应用
2、请列出常见把数据导入Stata的命令。
1、运行“use”命令加数据的路径和名称。2、像do文件那样,先用“cd”命令进入数据所在的目录,然后用“use”命令直接加数据的名称来导入数据。3、对于不是dta格式的数据文件,后缀名是“raw”,“txt”,“csv”的数据,可以用“insheet using”命令导入。 3、比较help、search、findit三个命令的功能。 help和search、findit都是获取帮助的命令。
区别在:help可用于查找精确的命令名,而search、findit是模糊查找。如果你知道某个命令的名字,并且想知道它的具体使用方法,只须在stata的命令行窗口中输入help空格
加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部内容。如果你想知道在stata下做某个估计或某种计算,而不知道具体该如何实现,就需要用search命令了。使用的方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。而findit是更偏向在线帮助,通过网络搜索命令并下载。
4、如何用Stata对单个变量、两个变量、多个变量进行画图。 1、对单个变量进行画图。
常用的命令是graph box,即画盒状图的命令。如果想进一步知道单个变量取值的分布情况,可以用histogram命令,这个命令用来画某变量取值的柱状图。图的横坐标是该变量的取值,纵坐标是该变量取各个值的频率。如果想拟合成光滑的曲线,可以用kdensity命令,如果想将这两个图叠加,可以运行“histogram 文件名,kden”。此外,spikeplot, dotplot等命令都可以形象地画出单个变量取值的分布。有时,人们还需要知道某个变量的分布距离一些常见分布(比如正态分布)有多远。Symplot, quantile, qnorm, pnorm, qchi, pchi等命令就可以实现这些想法。Symplot检验某变量的分布距离对称分布有多远;quantile检验变量的分布距均匀分布有多远;qnorm和pnorm用于检验变量的分布距正态分布有多远;qchi和pchi用于检验变量的分布距卡方分布有多远。 2、对两个变量进行画图
最重要的一类画图命令是graph twoway。所谓“twoway”,就是两个变量构成的平面坐标系。在graph twoway这一大类命令,还有许多小类,比如两个变量之间的关系用点表示还是用线表示等等。如果想用直线拟合二者之间的关系,可用lift命令。如果想用曲线拟合二者之间的关系,可用qfit、fpfit、lowess等命令。Sunflower使得散点图中的“稠密”和“稀疏”变得更明显。含“connected”命令,用圆点标出了曲线的每个转折点。 除散点和曲线外,还可以用面积图、柱状图、针状图、饼状图等许多其他形式来勾画两个变量之间的关系,只需将graph twoway......命令中的“scatter”、“line”或“connected”换成“area”“bar”或“spike”等命令即可。详细的使用情况可通过graph twoway的帮助文件进行了解。“此外graph box命令也可以表示两个变量之间的关系。但graph twoway命令和 graph box命令的语法略有不同:graph twoway 把两个变量直接罗列在一起,而graph box拿其中的一个变量做分组或分类变量。graph bar...”命令是画柱状图(若想使柱状图旋转90度,可以使用 graph hbar命令),“graph dot...”命令是画点状图。饼状图采用“graph pie”命令进行画图,且运行qqplot命令可以比较两个变量的分布之间有多大差距。 3、多个变量
采用“graph matrix”命令进行画图。graph matrix命令用矩阵的形式可同时画出多个变量之间的相互关系,同时graph box、graph bar、graph dot等命令都可以画多个变量之间的关系。如graph bar wage,over(educ)over(female)... 命令后的“over”表示按什么变量分组,前后顺序不同,画出的图就不同。 5、如何用Stata作OLS回归分析。 regress y x
以 y 为被解释变量,x 为解释变量进行普通最小二乘(OLS)回归。regress命令可简写为横线上方的三个字母reg。 regress y x, noconstant
y 对 x 的回归,不包含截距项 (constant),即过原点回归。 predict z
根据最近的回归生成一个新变量 z,其值等于每一个观测的拟合值。 predict u, residual
根据最近的回归生成一个新变量 u,其值等于每一个观测的残差。
1、打开数据文件。直接双击文件;或者点击Stata窗口工具栏最左侧的Open键,然后选择“工文件即可;或者先复制Excel表中的数据,再点击Stata窗口工具栏右起第4个Data Editor
键,将数据粘贴到打开的数据编辑窗口中,然后关闭该数据编辑窗口,点击工具栏左起第二个Save键保存数据,保存时需要给数据文件命名。
2、给出数据的简要描述。使用describe命令,简写为:des 得到运行结果;
3、变量的描述性统计分析。对于定量变量,使用summarize命令,得到运行结果。结果数据:第1列变量名,第2列观测数,第3列均值,第4列标准差,第5列最小值,第6列最大值。 4、OLS回归。使用regress命令,得到运行结果,并保存该运行结果。根据结果数据写出样本回归方程。
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库管理学研究方法论复习要点在线全文阅读。
相关推荐: