研究方法|抽样调查法:一种估计总体的调查方法
抽样调查法
抽样调查法是指从研究对象的全部单位中抽取一部分单位进行考察和分析,并用这部分单位的数量特征去推断总体数量特征的一种调查方法
一
概率抽样
概率抽样的定义与逻辑
定义:概率抽样又称随机抽样,指在调查总体样本中的每个单位都具有同等可能性被抽中的机会。
逻辑:假如总体中所有的个体在各方面完全相同(包括人口统计学的特性、态度、经历、行为等),那么就没有必要进行细致的抽样。在这种情况下,任何样本都适用,一个个案就足以成为整个总体的样本。但事实上,构成人类总体的个体之间天然的在各方面都存在一定区别,也正是由于这种差异,使我们需要从总体中选出能够反映总体特征的样本。因此,概率抽样也是一种让研究者选取充分反映总体内部差异样本的有效方法。
常见的概率抽样方法
1.简单随机抽样
简单随机抽样是社会研究进行统计估计时经常使用的最基本的抽样方法。简单随机抽样是指从总体N中任意抽取n个单位作为样本,使每个样本被抽中的概率相等的一种抽样方式。简单随机抽样的具体操作方法主要有抽签法和随机数表法。抽签法是将总体的全部单位逐一作签,搅拌均匀后再进行抽取;随机数表法是将总体中的所有单位进行编号,然后从随机数表中一个随机起点(任一排或一列),开始从左向右或从右向左、向上或向下抽取,直到达到所需的样本容量为止。
简单随机抽样操作简单且成本较低。但是,简单随机抽样必须有一个完整的抽样框,即总体各单位的清单。当总体太大时,制作这样的抽样框工作量巨大,而且多数情况下,总体名单无法得到。因此,在大规模社会调查中很少单纯地采用简单随机抽样。
2.系统抽样
系统抽样是系统化地选择完整名单中每第K个要素组成样本。例如,如果名册包含10,000个要素,当我们需要1,000个样本时,可以选择每第十个要素作为样本。为了避免使用该方法时造成的人为偏差,必须以随机的方式选择第一个要素。因此,在上述例子中,必须先随机选择一个1-10之间的号码,将这个号码代表的要素作为选取的第一个样本,然后每隔十个要素选取一个作为样本。
系统抽样法中有两个常用术语:抽样间距与抽样比率。抽样间距是指两个被选择要素间的标准距离,在上述例子中,抽样间距为十。抽样比率则是指被选择要素与所有总体要素数量的比率,在上述例子中,抽样比率为1/10。
在实际应用中,系统抽样与简单随机抽样本质上几乎是一致的。如果一系列的要素在抽样前确实是随机分布的,我们可以将系统抽样看成简单随机抽样。系统抽样在某些情况下比简单随机抽样要精确一些。但是,系统抽样存在一个潜藏的问题,即名单中要素的排列方式可能使系统抽样产生误差,这种排列方式问题通常被称为周期性问题。如果要素名单是以与抽样间隔一致的循环方式排列的,系统抽样则可能产生一个具有重大偏误的样本。例如,假设我们想在一栋公寓内选择公寓样本。如果样本是从每个公寓的编码(如101、102、103、104、201、202、203……等)中抽出的话,那么所使用的抽样间隔可能刚好等于每层楼的户数或是每层楼户数的倍数,如此所选到的样本有可能都是属于西北角的公寓或都是接近电梯的公寓,这些位置的公寓具有一些共同特性,此时样本便会产生偏误。
因此,如果需要对一份名册进行系统抽样,必须细致考察名册的基本特征。如果其中的要素存在特定的排列顺序,必须确定该顺序是否会使样本产生偏误,如果存在问题,必须加以解决(例如,在每段间隔当中使用简单随机抽样方法)。总体来说,如果不考虑其他因素,就便利性而言,系统抽样方法通常比简单随机抽样方法好。系统抽样的抽样框中要素特殊排列所产生的问题,通常也很容易解决。
3.分层抽样
分层抽样代表了简单随机抽样与系统抽样在使用时一种可能的修正形态。分层抽样是指确保总体内同质的次级集合会被抽岀适当数量的要素,而不是直接随意地由总体中抽出样本。例如,如果要对某学校的学生进行分层抽样,可以先将所有的学生按年级加以分类,然后再分别从一年级、二年级、三年级和四年级的学生中,各抽出适当数量的要素组成样本。
分层抽样样本数的确定:
①分层定比法。该方法指通过各层样本数与该层总体数比值相等的方法确定样本数。例如,样本大小n=50,总体N=500,则n/N=0.1即为样本比例,每层均按这一比例确定该层样本数。
②内曼法。该方法指各层应抽样本数与该层总体数及其标准差的积成正比。
③非比例分配法。该方法指当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。
4.整群抽样
整群抽样是指整群地抽取样本单位,再对被抽取的各群进行全面调查的一种抽样方式。例如,在检验某零件的质量时,不采用逐个抽取零件的方式,而是随机地抽出若干盒(每盒装有若干个零件),对所抽各盒零件进行全面检验。同样,当我们要对一个总体区域,例如城市的人口进行抽样时,虽然我们没有整个城市的人口名册,但是人们居住在这个城市中的不同街道,因此我们可以先选出一个街道样本,制作这些街道的居住人口名册,再对各个街道的名册进行抽样。多级整群抽样一直重复两个基本步骤:列名册与抽样。即先编制初级抽样单位(如学校、街道)的名册或将之分层,然后对这个名册进行抽样,根据选岀的初级抽样单位再编制其要素名单或分层,得到次级抽样单位名单并进行抽样,如此一直重复下去。
整群抽样的优点是实施方便、节省人力物力财力;缺点是由于不同群之间的差异较大,由此而引起的抽样误差往往大于简单随机抽样,且样本分布不够广泛、样本对总体的代表性相对较差。
整群抽样VS分层抽样:
当不同子群之间差别不大、而每个子群内部的异质性比较大时,则比较适合采用整群抽样;反之,当某个总体是由若干个有着自然界限和区分的子群(或类别、层次)所组成,不同子群相互之间差异很大、而每个子群内部的差异不大时,则比较适合采用分层抽样。
二
非概率抽样
非概率抽样的定义
虽然现代社会研究主要使用概率抽样,但是社会研究也经常遇到无法选择概率样本的情境。比如,如果需要对跳广场舞的人群进行调查,我们不仅没有一份跳广场舞的人群名单,而且也无法确定这样的名单。此时,可以采用非概率抽样,非概率抽样是指调查者根据自己的方便或主观判断抽取样本的方法。常见的非概率抽样有:就近抽样、判断式抽样、滚雪球抽样、配额抽样。
常见的非概率抽样方法
1.就近抽样
就近抽样是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者选择那些离得最近、最容易找到的人作为调查对象。例如,为了调查北京市的交通情况,研究者到离他们最近的地铁站,把当时正在那里等车的人作为调查对象。尽管这种方法看起来具有一定的可行性与合理性,但是这种调查方式很容易产生偏误。
2.判断式抽样
判断式抽样又称“立意抽样”或“目标式抽样”,是指根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作为样本的抽样方法。例如,当需要对福建省旅游市场状况进行调查时,研究者根据主观经验选择厦门、武夷山、泰宁金湖等知名的旅游风景区作为样本进行调查。
判断抽样具有简便易行,充分利用调查样本的已知资料,资料回收率高等优点。但是,判断抽样适用于总体的构成单位之间具有很大不同且样本数较小时,同时还要求研究者对总体的有关特征十分清楚。因此,判断抽样结果受研究人员的主观倾向影响较大,一旦研究者存在主观判断偏差,则极易引起抽样偏差。基于此,如果想要充分发挥判断抽样的作用,研究者在设计调查前需要对总体的基本特征进行深入了解,才能使所选定的样本具有代表性和典型性。
3.滚雪球抽样
滚雪球抽样指根据既有研究对象的建议找出其他研究对象的积累过程,即先随机选择一些被访者并对其进行访问,再请他们提供另外一些属于所研究目标总体的调查对象,根据所形成的线索选择此后的调查对象。例如,研究退休老人的生活情况与特征,可以清晨到公园去结识几位散步老人,再通过他们结识其朋友,了解到更多的目标研究对象。但是,这种方法的偏误也很大,那些不爱好运动、不喜欢去公园、不喜欢与别人交往、喜欢一个人在家里活动的老人,很难把雪球滚到他们那里,而他们却代表着另外一种退休后的生活方式。
滚雪球抽样的优点:首先,滚雪球抽样法可以根据某些样本特征对样本进行控制,适用于寻找一些在总体中十分稀少的样本,这样可以大大增加接触调查群体的可能性。第二,调查方式简单且容易操作,而且使用的经费相对较低,可行性较强。
滚雪球抽样的缺点:首先,滚雪球抽样最大的缺点在于,调查的对象局限于想法属性相近的一群人,会造成代表性不足的问题。因为通过彼此推荐的方式,通常找到的是一群想法较为相似的群体,这一群体通常只是我们想要研究的次级团体中的一个小部分而已。第二,当总体较小时,滚雪球抽样很容易出现接近饱和的情况,即后来访问的对象再介绍的都是已经访问过的对象。但是,很可能最后仍有许多个体无法找到,因而产生偏误,不能保证样本的代表性。
4.配额抽样
配额抽样也称“定额抽样”,是指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式。在进行配额抽样时需要根据不同特征,分配样本的数额。例如,市场调查中消费者具有性别、年龄、收入、职业、文化程度等方面的特征。进行配额抽样时必须事先知道,目标总体中男性的占比,女性的占比以及他们在不同的年龄阶层、收入水平、文化程度中所占的比例。这样便可以建立一个矩阵,矩阵中的每一个格子具有相应的比例,此时研究者可以根据研究目的从不同的格子中选择样本。例如,假设某学校有2000名学生,其中男生占60%,女生占40%;文科学生和理科学生各占50%;一年级学生占40%,二年级、三年级、四年级学生分别占30%、20%和10%。现要用配额抽样抽取一个规模为100人的样本。依据总体的构成和样本规模,我们可以得到以下定额表:
配额抽样的分类:
①独立控制配额抽样是指调查人员只对样本独立规定一种特征(或一种控制特性)下的样本数额,不规定必须同时具有两种或两种以上特性的样本数额。因此,调查员具有较大的自由去选择总体中的样本。例如,在消费者需求调查中,我们按照年龄特征,分别规定不同年龄段的样本数目。我们通常把消费者的年龄、性别、收入分别进行配额抽样而不考虑三个控制特性的交叉关系。
②相互控制配额抽样是指在按各类控制特性独立分配样本数额的基础上,再采用交叉控制,安排样本具体数额的抽样方式。即在分配样本数额时,同时对具有两种或者两种以上控制特征的每一样本数目都做出具体规定。例如,规定在18-29岁之间抽取30人,其中高收入男性和女性各抽取3人,中收入男性和女性各抽取4人,低收入男性和女性各抽取8人。该类抽样结果受研究人员的主观倾向性影响较大,一旦出现主观判断偏差,则极易引起抽样偏差。
配额抽样的优点:首先,配额抽样适用于研究者对总体的特征具有一定了解且样本数较多的情况下,实际上配额抽样属于先“分层”(事先确定每层的样本量)再“判断”(在每层中以判断抽样的方法选取抽样个体)。配额抽样的成本不高,易于实施,能满足总体比例的要求。第二,配额抽样的逻辑还可以有效地用于实地研究。例如,在一项有关社团的研究中,通常会对社团部长和普通成员都进行访谈。当研究者看重代表性时,可以采用配额抽样,对不同性别、不同年级、不同专业等都进行调查。
配额抽样的缺点:首先,配额抽样中配额的框架(不同格子所代表的不同比例)必须十分精确。为了做到这一点,研究者必须掌握充足的资料,但这在实际操作中存在一定困难。第二,配额抽样容易掩盖不可忽略的偏差。研究者在从某些特定的格子中选择样本时,可能会存在主观上的偏误。