抽样设计

抽样的目的:

  1. 通过样本人群的描述推断总体
  2. 通过样本中的反映出的变量关系推断总体中变量的关系

抽样术语

元素

元素(elements)是构成样本的最基本单元,同时也是构成总体的最基本单元。

总体

总体(population)是作为研究对象的特定范围内的所有元素的集合。

在抽样设计中,要对总体进行全面而细致的界定,通常从时间、区域、特征、对象等多个方面对总体进行界定。

2017 年成都市(含所辖区、县、市)所有年龄在 15-30 岁之间的使用过 iPhone 的女性

样本

样本(sample)是从总体中按照一定方式抽取出一定数量元素的集合。

抽样单元

抽样单元(sampling unit),是一次直接抽样所使用的抽样单位。

按个体抽取,抽样单位即为个体;按班级抽取,抽样单元即为班级;按村抽取,抽样单元即为村。

在大多数情况下,抽样单元与元素完全一致,但有两个例外,即整群抽样和多级抽样。整群抽样的抽样单元一定大于元素;多级抽样的抽样单元一定大于等于元素,且随着级别的变化而变化。

抽样框

抽样框(sampling frame),又称抽样范围,是将总体所涵盖的全部抽样单元进行编号排列而形成的清单。

参数值

参数值(parameter),又称总体值,是总体的某一变量的综合描述。

常见参数值:总体平均值、总体标准差

统计值

统计值(statistic),又称样本值,是对样本某一变量的综合描述,是总体某一变量的综合描述的估计值,即参数值的估计值。

常见统计值:样本平均值、样本标准差

抽样

抽样(sampling),从总体中抽取作为研究对象的样本的操作程序。

抽样设计的基本类型

有三种不同的抽样原则:

  1. 同质性抽样,是控制实验的抽样原则,即参加实验的元素,尽可能减少干扰变量。
  2. 代表性抽样,是问卷调查的抽样原则,即保证样本的多样性和代表性。
  3. 目的性抽样,是质性研究的抽样原则,也叫判断抽样。目的性抽样分为典型案例抽样、极端/异常案例抽样、关键案例抽样和最大变异性抽样(覆盖所有人口特征)四种情况。

代表性抽样分为随机抽样(也叫概率抽样)和非随机抽样(也叫非概率抽样)。

随机,就是总体中的每一个元素,都有同等几率进入到样本,或者有同等几率被抽中。

其中随机抽样分为:

  1. 简单随机抽样
  2. 系统抽样
  3. 分层抽样
  4. 整群抽样

而非随机抽样可分为:

  1. 便利抽样(偶遇抽样)
  2. 配额抽样(定额抽样)
  3. 滚雪球抽样(机缘抽样)

简单随机抽样

简单随机抽样(simple random sampling)是从含有 N 个抽样单元的总体中,一次抽取 n 个单元,是全部的 N 个抽样单元都有相等的概率被抽中。

具体操作方法有:使用计算机软件生成随机数、查随机数表。

简单随机抽样适用条件:

  1. 较小规模的总体
  2. 有明确总体
  3. 有完整的抽样框

系统抽样

系统抽样(systematic sampling),是从一个规模为 N 的总体中抽取出 n 个样本,设想将总体中的 N 个抽样单元按照一定的顺序排序,在规定范围内随机抽取一个初始单元,然后按照事先规定的规则抽取其他样本单元。

系统抽样中最为常见的是等距抽样。

等距抽样是从一个规模为 N 的总体中抽取 n 个样本,设想将总体中的 N 个抽样单元按照一定的顺序排序,根据样本量占总体的百分比确定一个抽样间距,然后每个一个抽样间距就抽取 1 个抽样单元,最终组成含 n 个抽样单元的样本。

抽样间距k=N/n。抽样间距,可四舍五入。

直线等距抽样与循环等距抽样

等距抽样是需要注意抽样间距与抽样单元排列周期性问题。

假如对某电视台某年内的每日节目进行抽样分析,如果抽样间距为 7,则会导致抽样出的样本都几种在星期几的情况,从而影响样本代表性。

解决的办法有:

  1. 掌握总体元素排列周期,选择适当的抽样间距。
  2. 打乱总体元素排列的周期性。

系统抽样的适用条件

  1. 较大规模的总体
  2. 明确的总体
  3. 完整的抽样框
  4. 总体中元素的随机排列
  5. 总体中元素具有较高的同质性
  6. 总体中不同类别元素的数量相差不大

分层抽样

分层抽样(stratified sampling),是在总体的各个构成部分具有异质性的前提下,按照一定的标准将总体分为互不重叠的不同层(stratification),然后再从每个层中分别抽取随机样本。

所谓“层”就是通常所说的“类别”。

总体->确定分层特征,分为不同的层->再在各个层中随机抽取子样本->子样本合并后,形成最终样本。

分层的目的与原则

分层的目的在保持样本结构和总体结构的一致性

  1. 分层的标准是一个变量(如年龄、学历、籍贯等)
  2. 作为分层标准的变量应与调查目标高度相关。
  3. 层与层之间的关系应当在逻辑上周延。
  4. 不同层的元素应尽量异质,同一层内部的元素应尽量同质。

分层抽样的两种类型

  1. 按比例分层抽样,一般我们使用按比例分层抽样,各子样本在总样本中所占比例 = 各层在总体总所占比例。
  2. 非比例分层抽样(最优分层抽样),各子样本在总样本中所占比例不等于各层在总体中所占比例。

在非比例分层抽样中,不同层的元素进入样本的概率不同,分析时需要修正。

非比例分层抽样,在需要各层之间实现样本分配最优化或需要专门研究某一个层的情况下使用。

分层抽样的适用条件:

  1. 较小规模的总体
  2. 明确的总体
  3. 完整的抽样框
  4. 详细的抽样元素分层特征信息。

整群抽样

整群抽样(cluster sampling),将总体划分为若干个“群”,以“群为抽样单位从中抽取随机样本。

常见的群有班级、专业、学院、部门等。

整群抽样通常采用分级(分阶段)方式。也叫做多级整群抽样,或多阶段整群抽样。

例如:要调查全国高校毕业生阅读倾向,则可分为四个阶段,第一阶段,按省、直辖市、自治区等省级行政区划划分;第二阶段,在个省中按高校划分;第三阶段,在高校中按学院或专业划分。最后在学院或专业中抽取毕业生。

多级整群抽样需要注意平衡类别和个体。

多级整群抽样的适用条件:

  1. 特大规模的总体
  2. 无需非常明确的总体
  3. 无需完整的抽样框

随机抽样方式比较:

  1. 简单随机抽样最具代表性,但成本高。
  2. 系统抽样很具代表性,成本低于简单随机抽样。
  3. 分层抽样能很好保证代表性,成本非常高。
  4. 多级整群抽样,能保证一定程度的代表性,成本较低。

便利抽样

便利抽样(convenience sampling),又称偶遇抽样,根据抽样的便利程度来抽取样本。

典型的便利抽样是街头拦截访问,类似的还有食堂门口发放问卷等等。

所有遵循代表性逻辑的抽样方式中,便利抽样的代表性最差,但成本相对较低。

配额抽样

配额抽样(quota sampling),将总体分成不同的类别,然后每个类别设定一定的样本数额,按照样本数额在每个类别中分别抽取样本。

配额抽样类似于分层抽样,但不采用随机抽取的方式。

滚雪球抽样

滚雪球抽样(snowball sampling),也称机缘抽样,通过调查对象推荐其他调查对象,最后组成样本。

滚雪球抽样通常适用于特殊人群的调查,如高档消费品或奢侈消费品的购买调查。

样本量的确定

确定样本量的两个公式:

(公式一)n(Zα/2)2σ2E2 \tag{公式一} n \approx \dfrac{(Z_{\alpha/2})^2\sigma^2}{E^2}

  1. 其中 n 为样本量
  2. σ2\sigma^2为方差,反映抽样个体值和整体平均值之间的偏离程度。
  3. E 为抽样误差,可以根据均值的百分比设定。
  4. Zα/2Z_{\alpha/2}为可靠性系数,即置信度,置信度为 95%时,Zα/2Z_{\alpha/2}等于 1.96。该值可通过查表获得,可视为已知的值。

但是由于有总体的值σ2\sigma^2和 E,所以该公式无法直接使用。故有了第二个公式:

假设抽样均值为 y,则相对抽样误差h=E/yh=E/y,引入变异系数C=σ/yC=\sigma/y。上一公式同时除以 y,则有

(公式二)n(Zα/2)2C2h2(Zα/2)2h2 \tag{公式二} n \approx \dfrac{(Z_{\alpha/2})^2C^2}{h^2} \leqslant \dfrac{(Z_{\alpha/2})^2}{h^2}

这样就可以根据相对误差和置信度来计算样本规模了。

相对抽样误差(假设:C=0.4)

置信度 1% 2% 3% 4% 5%
95% 6147 1537 683 384 246
90% 4330 1082 481 271 173

样本量的经验参考值

总体规模 样本比例
100 人以下 50%以上
100-1000 人 50%-20%
1000-5000 30%-10%
5000-10000 15%-3%
1 万-10 万 5%-1%
10 万以上 1%以下

调查研究最重要的工作,就是通过样本推论总群体的特性,为了确保推论的准确性,调查方的样本必须具有随机化、代表性与足够的数量。调查法的样本多为超过千人的大样本设计。

实验法与相关法的样本需求与统计分析方法的数学原理有关,实验的组数越多,样本需要越多,每一组至少有 30 个被试才能维系抽样分布的正态性,当有 K 组时,样本数则至少为 30 的 K 倍。

此外,样本的需求还与统计分析时的要求有关,如涉及到量表的使用时,以因素分析(factor analysis)为例,样本数约为题目数量的 10 倍,一个 50 题的量表,需要 500 人的样本,如此才可能获得较为稳定的统计分析数据。

从整体考虑的话,样本规模的影响因素有:

  1. 总体的规模
  2. 估计的把握性与精确性要求
  3. 总体的异质性程度
  4. 调查的主要目标
  5. 分类比较的程度
  6. 抽样方法
  7. 统计分析的需求
  8. 调查者所拥有的经费、人力和时间
  9. 数据收集方式(有效回收率、问卷发放方式)

参考文献

  1. BAXTER L A, BABBIE E R. The basics of communication research[M]. Belmont, CA: Wadsworth/Thomson Learning, 2004.
  2. 邱皓政. 量化研究与统计分析[M]. 重庆: 重庆大学出版社, 2013.

results matching ""

    No results matching ""