回归分析
刘娜 2018-12-6 naliu33@126.com
- 基础统计知识
- 正态分布
- 回归分析的基础知识
- 一元线性回归
- 多元线性回归
- 雇员数据的操作练习
参考书目
- 不发表就出局
- 戏说统计
- 回归分析
- applied mutiple regression analysis for the behavioral sciences
- 量化研究与统计分析
基础统计知识
总体(population):研究对象的全部个体,时空上具有清晰的界限。 样本(sample):从总体中选取代表性样本,概率样本。 总体大而全,样本小而全
变量
社会科学永远关心变,不关心常。常量不能解释变量。
变量是绝对的,常量是相对的
变量的选取:选取总体中的某些个体(随机抽样)、选取个体的某些属性:(立意抽样、选取理论相关、研究相关的属性)
变量在测量时,测量层级越高,
补充:5点量表、与10刻度的对比
数据
- 截面数据(cross-sectional data):
- 总体中某个样本在某个时间节点上的属性;无法判定因果关系;抽刀断水 例如:某段时间,四川大学在校学生的成绩的影响因素
- 历时数据、纵贯数据(longitudinal data)
- 同一个总体在不同时期抽取的不同样本的属性;可以判定因果关系;数据难以获得(GSS CGSS、CHIP)
- 面板数据(panel data)、同组个体的历时数据
- 同一样本在不同时期的重复观测;最理想的因果判定数据。
正态分布(Normal Distribution)
回归分析
1880年代,英国统计学家Francis Galton研究代际身高时提出:
- 子代平均身高介于父代平均身高和族群平均身高之间
- 子代身高有向族群平均身高“回归”的趋势
回归的现代意义:根据自变量推测因变量,把因变量的变化回溯到自变量。
回归分析的作用:
- 探索、描述、检测自变量和因变量之间的关系
- 根据自变量预测因变量的取值
因果链条(causal chain):只取理论上相关的一段
回归分析的前提条件
- 因变量(DV)和自变量(IV)是定距或定比测量;
- 因变量(DV)和自变量(IV)存在线性相关关系;(但不是线性相关的变量关系也很多,不过也有应对措施,分段)
- 因变量(DV)和自变量(IV)正态分布;
- 自变量(IVs)之间的相关系数不高;
- 相关的自变量尽可能囊括完整
- 样本大于400
抽样误差取决于样本量
补充内容
如何检测回归分析的前提条件
三大核心条件:线性、正态分布、独立性
检验方法:散点图、柱状图、皮尔森相关系数
散点图可以观察出数据趋势以及极值
柱状图可以看到是否接近正态分布
皮尔森相关系数能看出是否共同变化
解决办法:
- 去掉极值(outlier)
- 对数转换(log transform)
- 二次项转换:取自变量的平方
- 增加调节变量(moderator)
- 多重共线性(multiccollinearity)增大样本量、去掉可疑变量、合并可疑变量
一元线性回归
只有一个自变量的回归模型
回归方程:
多元线性回归
有多个自变量的线性回归
假设检验
通过检验零假设成立的可能性,来推断研究假设成立的可能性
零假设:变量之间的关系在总体中不存在 检验假设:变量之间的关系在总体中存在 p值:如果成立的话,样本观测结果在抽样分布中发生的概率。
回归模型的假设检验
模型整体检验 检验根据样本数据建立的回归模型在总体中是否具有解释力 判断标准:R方及其显著度;比用均值预测,准确度提高的百分比 回归系数检验 检验回归方程中自变量对因变量的影响在总体中是否存在 判断标准:自变量的回归系数及其显著度 非标准化回归系数:B,回答单个自变量对于因变量的解释力。
散点图、正态分布、修正正态分布?(取对数、开方、平方,以满足正态分布的前提条件),补充取对数的意义 相关系数
回归模型中的控制变量,理论上不讨论
交叉项
搜索刘娜的范例论文
调节变量和中介变量
我们的很多知识都是建立在变量间的相互关系或因果关系的基础上的,随着研究的深入,一些简单的关系已经不能够提供足够的信息,也难以概括复杂的情况。所以研究者们才提出了调节(moderation)变量和中介(mediation)变量的研究挖掘更多信息。
中介与调节是社会科学研究中重要的方法学概念,近年来越来越受到研究者的重视。主要原因是研究者经常遇到第三变量的混淆与干扰,是的自变量与因变量的解释关系受到影响。对于一个重要的第三变量,如果没有正确的纳入控制或分析,不仅可能会造成系数估计的偏误,也可能忽略第三变量可能与解释变量存在的交互作用,从而无法掌握第三变量对变量解释关系的条件化作用。
在一个统计模型中,中介者扮演IV与DV中继的角色,调节者则让$X \to Y$有条件的产生变化,换言之,解释变量与调节变量会对结果变量产生交互作用(interaction effect),使得在调节变量的不同水平下,$X \to Y$的效果产生系统性变化。
调节变量
调节变量的理论意义
调节变量为现有的理论划出限制条件和使用范围。研究调节变量时,我们正是通过研究一组关系在不同条件下的变化及其背后的原因,来丰富我们原有的理论。所以调节变量能够帮助我们发展已有的理论,使理论对变量间的关系的解释更为精细。
调节效果的概念缘起于实验设计中的交互效果。所谓交互效果,是自变量A与B会联合对于因变量Y发生作用。此时两个自变量在因变量上所造成的效果成为主要效果。两个变量联合对Y所产生的效果AB成为交互效果或交互作用。
调节变量的定义
如果变量X与变量Y有关系,但是X与Y的关系受第三个变量Z的影响,那么变量Z就是调节变量。变量Y与变量X的关系是变量Z的函数,Z便成为X与Y关系的调节变量。常见的表述有“视情况而定”、“因人而异”、“在什么样的情况下”、“对于那些人”等等。自变量与这个第三变量能否产生交互作用,若产生,则该变量一定是调节变量。
调节变量的原理
调节变量影响自变量和因变量之间的关系,即可以是对关系方向的影响,又可以是对关系强度的影响。如失业率对情感承诺与员工离职关系的调节作用。
一般建议,调节变量最好是选取明确易懂的二分变量,如果是连续变量,则需依照正式的统计程序来处理。
调节作用与交互作用
交互作用是指两类变量和共同作用时对Y的影响不等于两者分别影响Y的简单数学和。两个自变量可以是对称也可以是不对称的。
调节作用是指一个变量影响了另外一个变量对Y的影响。自变量和调节变量是不能互换的。
检查调节作用的方法
检查调节作用的最普遍的方法是多元调节回归分析MMR。
MMR具体步骤:
- 用虚拟变量代表类别变量(所需的虚拟变量的数目等于类别变量水平个数减1)。
- 对连续变量进行中心化或标准化。其目的是减少回归方程中的变量间多重共线性。所谓中心化,就是用这个变量中测量的每个数据点减去均值,使得新得到的数据样本均值为0。
- 构造乘积项。
- 构造方程。自变量、因变量和乘积项放到多元回归方程中检验交互作用。乘积项的系数如果显著,就说明调节作用存在。
中介变量的理论意义
中介(mediate)变量整合已有的研究或理论,中介变量可以解释变量之间为什么会存在关系,以及这个关系如何发生的。Baron与Kenny(1986)从统计方法学的角度,提出了中介效果的完整概念体系与检验程序,普遍为社会科学领域研究者所接受。
Baron和Kenny的中介效果检验是利用三条回归方程式来检验四个条件是否成立:
- 中介效果的第一个条件为的估计值必须具有统计显著性。即变量X与Y之间存在相关性。
- 中介效果的第二个条件为的估计值必须就有统计显著度。
- 第三个条件是在同时考虑自变量X与中介变量Z对于因变量的影响时,中介变量Z必须具有统计显著度。
- 当控制中介变量Z后,原来的自变量X其净效果消失,亦即的估计值没有达到统计显著水平。
如果上述四项条件完全符合,亦即Z完全中介X->Y的效果,成为完全中介效应。如果虽有变化,但仍具有统计显著性,若其绝对值小于的估计值,则成为Z部分中介X对Y的效果,亦即部分中介效果。
- Applied multiple regression/correlation analysis for the behavioral sciences[M]. COHEN J, COHEN J. 第3rd ed版. Mahwah, N.J: L. Erlbaum Associates, 2003.
- 邱皓政. 量化研究与统计分析[M]. 重庆: 重庆大学出版社, 2013.