调查数据分析

可用来进行调查数据分析的软件有很多,SPSS 因其相对容易学习,受到了广大用户的欢迎。

安装 SPSS,并将 SPSS 设置为英文,以便更加准确地理解学术术语。

问卷数据的定义与录入

在 SPSS 中,有两个界面:数据视图和变量视图,定义变量在变量视图。

题项=指标=变量

变量的命名规则

  1. 变量名的第一个字符可以是字母或中文字,后面可跟任意字母或中文字、数字、[.@#_$] 等符号;
  2. 变量名不能以句点结尾;
  3. 变量名应避免最后一个字符为下划线;
  4. 变量名的长度不要太长。一般不超过 64 个字符;
  5. 空格和特殊字符不能用于变量名;
  6. 每个变量名必须保证是唯一的,不区分大小写;
  7. 系统保留的关键字不能作为变量名。如 ALL NE EQ TO LE LT GE BY OR GT AND NOT WITH

如果变量名不符合要求,系统会有提示。

建议使用汉语拼音或者英语作为变量名,而不是中文变量名。在变量标签处,使用中文对英文变量名进行说明注释。

变量类型和长度

在 SPSS 中定义变量类型和长度的对话框是同一个。其中长度(width)指的是变量的长度,如 width=5,表示长度为 5,Decimal 表示小数点后的位数。

标签

变量的标签(label)用来说明变量名称,允许变量标签字符数最多可达 256 个。

当为变量定义了变量标签之后,在进行分析时,对话框中的待选变量列表框和分析变量列表框中的变量名前标注有变量标签,操作时一目了然。

变量的赋值

变量的赋值(value)实际就是题项中的答案编码,如果为填空题,value 值就为空。给变量值赋予值标签后,可以使输出结果更清楚,更便于阅读和理解。

变量缺失值的定义

缺失值(missing values)的定义,在 SPSS 中有三种情况:

第一种是默认缺失值。即没有输入值时,SPSS 不作任何处理,空值。

第二种是设置三个缺失值,如 97、98、99。如果输入值为 97、98、99,则会被处理为缺失值。

当我们使用随机抽样时,不能随意丢弃个案,否则会对总体随机性产生影响。

第三种是定义缺失值的范围(这样就可以定义多个缺失值),再加上一个离散缺失值。

变量的列宽和位置

列宽(column)用来定义数据在数据视图中的显示宽度,位置 (align) 用来定义数据的对齐方式。

测量层次的定义

测量层次必须设置准确。在 SPSS 中有三个层次,定比、定序、定类。

在变量视图中,最好不要有大量空白的区域。注意设定变量名、长度、值、标签以及测量层次。

频数分析

频数分析适用于所有类型的变量。频数分析的功能:

  1. 了解变量的各种取值的频数分布;
  2. 了解变量的各种取值的频率(百分比)分布;
  3. 画出能够反映频数分布或频率分布的图表。

频数分析时,需要考虑选择合适的统计量(Statistic)、图表(Charts)和格式(format)。

在选择统计量时,一定要考虑变量的测量层次,比如如果是年龄这样的定比变量,就可以计算平均值、标准差、标准误等等指标,而如果是定类变量,如性别,则计算平均值、标准差等就没有意义。

直方图(把条状图挤在一起),是每个区间段的值的图示,不是单个值的图。

答题要点:结合数据解释变量参数的含义,写变量名为 xxx,1 列 1 分,一共 10 分。

推论统计

对样本资料进行描述统计后,我们还要根据样本的研究结果来推测总体的情况。

以样本的数值来推算总体,结论可能正确,也可能错误,而运用概率论原理,我们可以求出推论统计犯错的可能性大小。

只要我们是采用随机抽样方法,就可以根据抽样分布,以样本的数值来推测总体的情况。

小概率原则

在某种特定环境中,概率比较小的事件称之为小概率事件。小概率事件的原则是指如果一个事件发生的概率很小,那么在一次试验中实际上可以看成是不可能发生的(一般情况下把概率在 0.05 以内的事件称为小概率事件)。基于这一原则,经常在产品检验、设备处理、数据检测等方面进行随机处理。因为小概率事件在一次试验中几乎不可能发生,如果在一次实验中某个小概率事件真的发生了,就可以认为这是一种不正常的现象。

什么样的概率值算作小概率呢?一般地说,应根据研究的不同对象而规定小概率的值。

推论统计的原理

如果在样本中发现两个变量存在相关,固然存在总体的情况确实如此,但也可能是由于抽样误差引起的。

假设检验的基本原则是直接检验H0H_0,从而间接地检验H1H_1,目的是排除抽样误差的可能性。

如果我们能证明H0H_0对的可能性很小,那么就认为H1H_1“可能”是对的。

在样本中发现的相关性,不能直接推论到总体中去,需要进行推论统计分析。

推论统计都是以抽样分布为基础,来检验虚无假设,进而知道研究假设的正确可能性。

否定域与显著度

否定域就是抽样分布中一端或两端的小区域,如果样本的统计值在此区域范围内,则否定虚无假设。显著度(level of significance)表示否定域在整个抽样分布中所占的比例。

显著度与否定域

两种类型的错误

用样本的值推测总体,不管是否接受研究假设,都存在犯错的可能。

所谓第一类错误(type Ⅰ error),是指否定H0H_0,但实际上H0H_0是对的。第一类错误的可能性就是显著度。

第二类错误(type Ⅱ error),是指不否定H0H_0,但实际上H0H_0是错的。

第一类错误和第二类错误是相对立的,要消除两种误差的矛盾是不可能的。但增大样本量,可在一定程度上同时减少两者的可能性。

相关系数分析

所谓相关,是指一个变量的变化与另一个变量的变化有连带性。

如教育水平和人生志愿、性别和内容消费行为的偏好等等。

相关分析

数值-数值

皮尔森相关系数分析、回归分析

分类-分类

交叉表分析(卡方检验)

分类-数值

独立样本 t 检验(只有 2 值)、单因素方差分析(3 个以上),本质是一致的。

控制实验是唯一能够推断因果关系的研究方法。问卷调查是横截面数据。

所有不能推断因果关系的分析,我们都叫相关性分析。

相关系数分析的适用范围

  1. 数值-数值(皮尔森积差相关分析)
  2. 定序-定序(斯皮尔曼等级相关分析)

相关系数分析的功能:

  1. 通过数值直接呈现两个变量之间的相关关系(系统性共变关系);
  2. 通过显著性检验证明这种关系并测量其强度。

皮尔森相关系数(pearson correlation)反映两个定比变量之间的相关性。简单来说,皮尔逊相关系数是指两个变量如何通过各自的变化而发生共同的变化(这两个数值称为协方差和方差) 。

相关系数(correlation coefficients)是能够反映变量之间相关性强弱的指标,对不同类型的变量应注意采用不同类型的相关系数,所有相关系数都采用字母 r 表示。所有相关系数的取值范围都是从-1 到+1 之间。

大多数的统计方法是以 0 代表无相关,以 1 代表完全相关。不同测量层次有着不同的相关系数。

相关系数 关联程度
<0.3 弱相关
[0.3-0.8] 中度相关
>0.8 强相关

相关还有方向的区分,如正相关表示一个变量增加时,另外一个变量也在增加。

有方向->单侧

无方向->双侧

相关性强并不一定意味着相关系数也高。皮尔逊相关系数假定两个变量之间是线性关系,即一个变量(比如身高)增大,另一个变量(比如年龄)也会以相同的比率增大。然而,情况并非总是如此,因为还可能存在更为复杂的、非线性的关系。

值得注意的是,相关系数为标准化系数,系数数值不呈等距关系,因此系数数值不能被视为等距尺度,系数的加减乘除没有意义,仅可以顺序尺度的概念,来说明数值的相对大小。此外,相关系数的解释与应用,必须经过显著性检验来决定系数的统计意义,一旦显著之后,研究者即可解释系数的强度,给予实务意义。

在统计学上,统计意义与实务意义是两个截然不同的概念,有时,一个很微弱的相关(例如 0.10), 可能会因为样本数很大而达到统计的显著水平,具有统计意义,但是实务意义低;但一个很强的相关(例如 0.60), 可能因为样本数太小而没有显著的统计意义,但是其实务意义颇高。很明显的,样本数的大小是影响相关系数统计显著性的重要因素。提高样本数可以提升统计的意义,但不改变实务意义。影响实务意义大小的决定因子并非样本规模,而是变量间的实质关系。两者间的关系非常微妙。

显著性检验的目的

显著性检验的目的是为了判断我们从样本上呈现的相关性,是总体本来就有相关性,还是由于抽样误差导致的相关性。

显著性(伴随概率),判断是否显著的标准是 5%,是一个约定俗成的标准。

显著度小于 0.05,说明不是抽样误差引起的,而是特定的因素在起作用。

皮尔森积差相关分析

皮尔森相关系数是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用 r 表示。

皮尔森相关性分析在 SPSS 中的实现

选择“Analyze”菜单中的“Correlate”,再选择“Bivariate”,在变量导入界面中,将两个(或多个)数值变量放入“Variables”,点击 ok 即可。

皮尔森相关性分析结果解读

皮尔森相关性分析

这个表格中,第一行为皮尔森相关系数,第二行为显著度。显著度值如果大于 0.05,则接受虚无假设,拒绝研究假设;反之,则接受研究假设,拒绝虚无假设。

在图示案例中,可以这样说,年龄与住房面积之间存在显著性关系,但相关性很弱(相关系数为 0.058)。

交叉表分析

交叉表,又称为列联表。交叉表分析的适用范围:

  1. 定类-定类
  2. 定序-定类
  3. 定类-定序(或定序-定类)

交叉表分析的功能:

  1. 在同一表格中同时量化描述多个变量的频数分布。
  2. 呈现多个变量之间的相互关系。
  3. 通过卡方 (χ2\chi^2) 检验等手段证明这种关系并测量其强度。

SPSS 中交互表分析的步骤

选择分析菜单中的描述统计分析,再选择交互表,打开交互表分析对话框。

在 SPSS 中,通常将自变量放在列变量(column)中,而将因变量放在行变量(row)中。在统计分析方法选择对话框中,选择卡方检验(Chi-square) 和相关性(Correlations)。

在交叉表分析的单元格设定对话框中,勾选计数中的观察频数(observed)和期望频数(expected), 勾选百分比中的行百分比(row)、列百分比(column)以及总百分比(total)。

交叉表分析的结果输出有三:

  1. 频数分布交叉表
  2. 卡方检验结果
  3. 相关性

交叉表分析结果解读

交互表

两个独立的概率事件 a、b 同时发生的概率为 a 事件发生的概率乘以 b 事件发生的概率。据此,期望频数的计算公式如下:

eij=n(rin)(cjn)=ricjn e_{ij}=n\centerdot(\dfrac{r_i}{n})\centerdot(\dfrac{c_j}{n})=\dfrac{r_ic_j}{n}

  1. 观察频数,其中既是本地户口,又是未来三年不买房的样本数是 2052,无算式,通过统计得出。
  2. 期望频数,是在零假设(户口状况与未来三年购房意愿两变量无关)的情况下,既是本地户口未来三年又不买房的样本数,算式eij=n(rin)(cjn)=2880×21612880×27122880=2034.9e_{ij} = n \centerdot (\dfrac{r_i}{n}) \centerdot (\dfrac{c_j}{n}) = 2880 \times \dfrac{2161}{2880} \times \dfrac{2712}{2880} = 2034.9
  3. 行百分比,所有未来三年不买房的样本中本市户口的样本数占比为 95%,算式为2052/2161=0.952052/2161=0.95
  4. 列百分比,本地户口的样本中,未来三年不买房的样本数占比为 75.7%,算式为2052/2712=0.7572052/2712=0.757
  5. 总百分比,全部样本中,既是本地户口,未来三年又不打算买房的样本数占比为 71.3%,算式为2052/2880=0.712052/2880=0.71

卡方检验结果解读

卡方检验结果

通常使用皮尔森卡方检验(pearson chi-square)进行显著性检验,其他几种都是在特殊情况下才使用:

  1. 交叉表中若有期望频率小于 1 的单元格,应使用费希尔精确概率检验(Fisher‘s exact test)。
  2. 交叉表中若有 20%以上的单元格中期望频数小于 5,则应该使用费希尔精确概率检验。
  3. 如果样本数较小(40\leqslant40),应使用似然比卡方检验(likehood ratio)。
  4. 连续校正卡方检验(continuilty correction)仅适用于 2*2 的交叉表。
  5. 线性相关卡方检验(linear-by-linear association)仅适用于定序变量,不能用于定类变量。

皮尔森卡方检验的显著性值,如显著度大于 0.05,表明应该接受虚无假设,即不同户口的人在未来三年是否购房的意愿上不存在显著性差异,处于同一水平。如显著度小于 0.05,表明应该拒绝虚无假设,接受研究假设,即不同户口的人在未来三年是否购房的意愿上存在显著性差异。

从表中可以看出,皮尔森卡方检验的伴随概率即显著度为 0.002,小于 0.05,通过了显著性检验,在样本中的相关性可推广到总体。我们可以说,不同户口的人在未来三年是否购房的意愿上存在显著性差异。

相关性结果解读

因为交互表分析的是两个定类变量,严格来说,不能使用皮尔森相关系数和斯皮尔曼相关系数进行相关程度的计算,但是如果我们视定类变量为定序变量(如我们可认为本地户口高于外地户口、买房的进取心大于不买房的进取心),也可参考斯皮尔曼相关系数的值。

独立样本 t 检验

独立样本 t 检验,用来比较两个群体(通过某一变量的不同取值来划分)的某一变量的均值是否存在差异。

不同性别(分组变量)居民的现有住房面积(检验变量)是否存在差异?

分组变量:作为群体划分依据的变量,必须是分类变量。

检验变量:作为均值比较对象的变量,必须是数值变量。

独立样本 t 检验在 SPSS 中的实现

选择“分析”菜单中的“比较均值”,再选择“独立样本 t 检验”。打开对话框,将分组变量选入到“grouping variable”,将检验变量选入到“test variable”中,再定义分组的值(如用 1 来表示男性,2 表示女性),点击确定即可。

独立样本 t 检验输出结果的解读

分组统计表

在分组统计表中,从左到右分别是检验变量、分组变量、样本量、平均值、标准差和均值标准误。我们可以看出在样本中,男性的住房面积比女性的大。但我们还需要通过 t 检验来确定,这种差异是否是由于抽样误差引起的。

独立样本 t 检验

t 检验的前提是不同分组的分布相同,可通过莱文方差齐性检验(Levene's test for equality of variances),也叫莱文方差同质性检验,对不同组的方差齐性进行检验,齐性就看上面,不齐性看下面一行。

在上图中,莱文方差齐性检验的显著度为 0.206,大于 0.05,不显著,故而我们可以得出,不同性别的住房面积的方差齐性,看上面一行的 t 检验结果,t 检验对应的显著度为 0.003,显著,说明住房面积的差别是可以推广到总体中去的,不是由于偶然性的抽样误差导致的,即在总体中,男性的住房面积大于女性的住房面积。

单因素方差分析

单因素方差分析(ANOVA)用来比较三个或三个以上群体(通过某一变量的不同取值来划分)的某一变量的均值是否存在差异。

不同文化程度(分组变量)居民的现有住房面积(检验变量)是否存在差异?

分组变量:作为群体划分依据的变量,必须是分类变量。 检验变量:作为均值比较对象的变量,必须是数值变量。

单因素方差分析在 SPSS 中的实现

选择“Analyze”菜单中的“Compare Means”,在选择“One-Way ANOVA”,在变量导入界面中,将分组变量导入到因子(Factor)中,将检验变量导入到因变量(Dependent List)中。

点击变量导入界面中的“options”按钮,打开基本选项对话框,勾选“Descriptive”和“Homogeneity of variance test”选项,进行描述分析和方差齐性检验。

再点击单因素方差分析多重比较方法定义对话框(Post Hoc),可分别勾选方差齐性假设中的”LSD“和方差不齐性假设中的“Tamhane's T2”。

设置上如上信息后,点击 ok,运行分析。

单因素方差分析输出结果的解读

描述表

单因素方差分析描述表

从左到右,分别是分组变量中的取值、样本量、平均值、标准差、标准误、95%置信水平下的均值下限、95%置信水平下的均值上线、最小值、最大值。

在这个表中,可以直观的看出分组变量中的不同值之间的均值大小和差异。

单因素方差分析表

单因素方差分析表

这个表中,最重要的是 F 值和 sig 值。sig 值小于 0.05,即通过检验,就案例而言,我们可以说,文化程度与住房面积之间存在显著性关系。

莱文方差齐性检验表

莱文方差齐性检验

类似于独立样本 t 检验,这张表看的是分组变量中不同组别之间的方差是否齐性。若方差齐性,选择方差齐性假设中的”LSD“等方法进行多重比较;若方差不齐性,选择方差不齐性假设中的“Tamhane's T2”等方法进行多重比较。

单因素方差分析多重比较表

单因素方差分析多重比较表

这张表是单因素方差分析的最终结果。如果莱文方差齐性检验的结果显著(即 sig 小于 0.05),则看方差不齐性假设中的“Tamhane's T2”等方法的多重比较结果。如果莱文方差齐性检验的结果不显著(即 sig 大于 0.05),则看方差齐性假设中的“LSD”等方法的多重比较结果。

确定好方差齐性检验结果之后,看不同组之间,哪几组之间的检验变量均值存在显著性差异,哪几组之间不存在显著性差异。

就案例而言,研究生组和本科组之间的住房面积均值不存在显著性差异,研究生组和初中以及研究生和高中组之间在住房面积均值上存在显著性差异,研究生学历的居民住房面积均值大于初中及高中文化程度居民的住房面积均值。

关键概念

  1. 频数分析
  2. 有效百分比
  3. 累计百分比
  4. 相关分析
  5. 相关系数
  6. 皮尔森积差相关
  7. 斯皮尔曼等级相关
  8. 交叉表(列联表)分析
  9. 观察频数
  10. 期望频数
  11. 卡方检验
  12. 独立样本 t 检验
  13. 分组变量
  14. 检验变量
  15. 莱文方差齐性检验
  16. 校正 t 检验
  17. 单因素方差分析

这就好比我们将数据输入黑匣子,然后不管黑匣子反馈给我们的是什么数字都不假思索地接受,这样是很危险的。在这些相关性被低估甚至看起来是零的案例中,如果我们不进一步研究就直接接受这样的数值,很有可能会错失一些十分有意义的关联。

然而,很多基于相关性做的预测都以失败告终,无论这些相关性是否存在对应的因果关系。使用相关性的风险之一在于,对于两个变量之间的任何相关性,我们都可能会找到一些理由来解释这种相关性是如何产生的,从而导致人们对结果过分自信。

results matching ""

    No results matching ""