抽样的概念
指在不能总体全量调查时,为了推测总体特征,抽取真实代表总体的调查对象。
调查方法 | 进行调查的对象 | 想获得的信息的范围 | 抽样的必要性 |
---|---|---|---|
普查 | 全体调查对象 | 全体调查对象的情况 | 不必要 |
抽样调查 | 部分调查对象 | 调查对象的总体特征 | 必要 |
非抽样调查 | 部分调查对象 | 部分调查对象的情况 | 不必要 |
抽样调查特点
- 1.抽样调查花费较少
- 2.迅速地获取信息
- 3.争取时效是非常重要的
- 4.总体太大,实际上无法实行普查
- 5.个别对象难以接触
- 6.科学地抽样(样本具有代表性,可控制抽样误差)
普查特点
- 1.总体较小
- 2.总体差异(方差)较大
- 3.抽样误差较大
非抽样方法
- 全部调查
- 非抽样调查(回答者募集方式) 通过互联网、报纸、杂志、广告单等、店头、各种设施内、商品包装等方式募集。
抽样方法分类
1. 基于调查对象总体清单的抽样方法
条件 | 抽样方法 |
---|---|
有总体清单 | - 抽取样本量小:直接抽样 - 抽取样本量大:需结合调查总体规模 |
无总体清单 | - 住宅地图抽样(区域抽样) - 街头/到场者抽样 - RDD(随机数字拨号) |
2. 大样本量下的抽样方法(依调查总体规模)
调查总体特征 | 抽样方法 |
---|---|
可全体编号 | - 抽样机构抽样 - 系统抽样 |
不可全体编号 | - 概率与规模成比例二级抽样(PPS) - 分层二级抽样等概率抽样 |
3. 其他独立抽样方法
- 区域抽样(群抽样)
- 时间抽样
- RDD(随机数字拨号)
4. 抽样方法决策要素
选择抽样方法需综合考虑:
- 1.是否有调查对象清单
- 2.调查总体规模
- 3.调查目的
- 4.实施方法
- 5.预算限制
抽样过程
抽样步骤
- 1.明确调查目的
- 2.定义总体、抽样单元
- 3.确定主要目标量的精度
- 4.确定、购置抽样框
- 5.选择抽样方案
- 6.确定样本量
- 7.制定实施细节和步骤
抽样基本原则
- 随机性原则: 等概率或不等概率抽样
- 效果最佳原则
- 固定费用下抽样误差最小
- 确定精度下费用最小
抽样单元
为了便利地实现随机抽样,常常把总体划分为有限个互不重叠的部分每一部分叫做一个抽样单元。(比如省、市、县、街道、居委会、家庭户等)
抽样误差与标准误
抽样误差
由个体变异产生的、抽样造成的样本统计量与总体参数的差别。原因:抽样、个体差异
标准误(Standard Error,SE)
表示样本统计量抽样误差大小的统计量。计算公式:
- 总体:
- 样本:
非抽样误差
- 非抽样误差是指除抽样误差外由于人为的差错引起的误差,也叫偏差
- 问题的定义、处理问题的途径、量表间卷中问题的设计、访问的方法、实施的质量控制、数据处理和分析的失当都会造成非抽样误差
- 非抽样误差包括研究员、访问员、被访者三应面的误差
- 为确保调查结果的准确性,应该消除非抽样误差,至少应尽可能使之最小化
非抽样误差无回答谋差的处理
- 无回答误差在调查实施中经常发生。
- 主要有两类:样本单元无回答、项目无回答
- 解决:访问员培训、多次访问、替换样本、敏感问题
- 解决:二重抽样、加权调整、估算法
研究者差错带来的非抽样误差
- 代用信息误差: 调研问题所需的信息与研究者收集信息之间的变差。如:将选择误解为偏好。
- 测量误差: 所搜寻的信息与研究者测量生成的信息之间的变差。如:观念量表使用错误。
- 总体定义误差: 所要研究的真正总体与方案定义的总体之间存在变差。如:城市居民。
- 抽样框误差: 所定义的总体与所使用的抽样框隐含的总体之间存在的变差。如:电话调查不能代表居民总体。
- 数据分析误差: 将问卷原始数据转换为调查结果时产生的误差。如:使用不当的统计方法导致不正确的结果、解释和结论。
访问员和被访者差错带来的非抽样误差
- 问答误差: 询问时没有真正理解问题含义,或需要进一步询问更多信息是没有去问。如:没有按照问卷措辞提问。
- 记录误差: 在倾听、理解和记录被访者回答时造成的误差。如:被访者给出的是中性回答,但记录为可能会。
- 欺骗误差: 调查数据造假等。
- 回答误差: 被访者回答不正确或记录错误、分析错误。
- 无回答误差: 包括完全无回答(拒访)、部分无回7(部分问题无回答)。
抽样样式
概率抽样probability samples
- 等概率抽样: 所有的样本单位所出现的机会是相同的。
- 不等概率抽样: 可以计算每个样本单位所出现的概率。
- 按昭随机/概率规律的原则,从总体中抽取样本。可以对总体进行推断。
非概率抽样non probability sample
- 所有的样本单位所出现的机会是不确定的。
- 不能计算每个样本单位所出现的概率,因为选择样本的方法是非随机的。
- 方便抽样: 利用会议、展览、商场、街头抽样;报刊问卷调查,网络问卷。
- 判断抽样: 依据研究者主观判断,选取可代表总体的个体作为样本。
- 配额抽样: 按照调查对象的某种属性或特征,将总体中所有个体分类,然后按照一定比例分别抽取样本。配额抽样有可能接近概率抽样的结果。前提是各类群同质,无需随机抽样;类型划分合理;配额符合总体中各类型的分布。
- 滚雪球抽样: 又称裙带抽样、推荐抽样,是一种在稀疏总体中寻找受访者的抽样方法。
简单随机抽样
- 简单抽样方法和系统抽样方法是指,对所有调查对象编上一连串的号码,据此从名册中进行随机抽样的方法。
- 在可以对所有调查对象进行编号的情况下所使用的抽样方法。通过查随机数表等的方法,随机地抽取调查对象的号码。
- 例如,假设在顾客名册中登记了500人,给他们编上一连串的号码。查随机数表,选出50个不重复的随机数,所对应的号码的人即为样本。虽然简单抽样方法可以均匀地抽取代表总体的样本,是一种精度较高的方法,但由于样本量越多查随机数表的次数也越多,进行起来较为繁琐。
- 当研究总体不太大,或总体单元的元素有完备的名单时,简单随即抽样非常适用。
优点: 精度高。 缺点: 费事费时;进行调查总体范围广的访问调查时,实施费用多。
系统抽样(等距抽样)
- 系统抽样方法先求出抽样间隔值(为名册登记人数-抽取人数所得的值舍去小数点后面数字的整数)。
- 接着在这个范围内选择一个随机数作为起始号码。起始号码加抽样间隔值,所对应的即为样本。
- 进而,反复地在这个值的基础上加上抽样间隔值,以抽足所有的样本。
- 抽取的样本量多于要求的样本量时,使用简单抽样方法从中抽取需要剔除的样本。
优点: 不费事,不费时 缺点: 精度比简单抽样方法低调查总体清单有规律地排列时,抽取出来的可能只是特定性质的样本。
概率与规模成比例抽样/PPS
这是抽样单位在2个以上时的抽样方法,通过缩小区域和调查对象的范围,从大规模的总体中高效率地进行抽样。它是一种使用辅助信息,从而使每个单位均有按其规模大小成比例的被抽中概率的一种抽样方式。 + PPS 抽样实际上是整群抽样与简单随机抽祥或等距抽样(系统抽样)配合的两阶段抽样例如,先选出街区(一级抽样单位),再从已选的街区中选出家庭户或个人(二级抽样单位)的方法。 + PPS 抽样是指按概率比例抽样,属于概率抽样中的~种是指在多阶段抽样中,尤其是二阶段抽样中,初级抽样单位被抽中的机率取决于其初级抽样单位的规模大小,初级抽样单位规模越大,被抽中的机会就越大,初级抽样单位规模越小,被抽中的机率就越小。就是将总体按一种准确的标准划分出容量不等的具有相同标志的单位在总体中不同比率分配的样本量进行的抽样。
分层抽样
分层原则: 层内差异小,层间差异大
优点: + 子总体内的抽样单元之间差异比较小,子样本具有较好的均匀性,可能得到较 + 高精度的估计量 + 有效消除特殊个体的影响可对各层的特性加以比较 + 实施管理方便
时间抽样
- 时间抽样是指按时间间隔抽取行人的时间抽样。 例,从50个行人中邀请1人接受调查时所使用的抽样。由于不清楚调查总体的情况,所以不能计算抽样比。但是,只要样本量足够大,并尽量按相等的抽样间隔进行抽样,就可以保证样本的代表性。
- 如果事先测定好调查地点从周一到周日各天不同时间段的行人数量,对于确定所需的访问员人数、抽样间隔和调查结果回收目标人数会有较大的帮助。
RDD(Random Digit Dialing )
- 作为电话调查所独有的抽样方法,有RDD(Random Digit Dialing和Plus1。
- RDD: 通过随机数产生与不同区域正在使用的电话号码位数相等的号码,并据此来造出电话号码的方法,
- Plus1: 从电话簿数据库中抽出电话号码,在它的最后一位数字加上或者减去1-9的任何一个数字的方法.
- 无论是RDD还是Plus1,由于都用计算机自动拨出生成的电话号码,所以不需要进行人工抽样。也有用印刷版的电话簿进行抽样的方法,但这种方法也存在一个问题,那就是有些电话号码可能会出现空号。