您的当前位置:首页正文

第六章 准实验研究

来源:九壹网


第六章 准实验研究

一、准实验研究的涵义及效度

人们常常把实验研究称为“真”实验设计,这是因为它们具有随机安排被试(组)进行实验处理的特征。这样,实验对等组的获得及其在一定范围内的随机波动都归结于随机安排。然而,在进行教育研究时,被试的挑选和组合不可能总是随机的。在教育领域中,有许多被试是既定的,如由一个班级里的学生自然而完整地形成被试群体。当这种保持原样的组运用于一个实验中时,我们便称此实验为准实验研究。这种研究能够为教育做出有价值的贡献,但有一点很重要:研究者对实验结果的解释和推广应该特别慎重。

准实验研究是指一个实验运用原始群体,而不是随机地安排被试进行实验处理。 缺少随机组合本身潜在地影响着实验的效度——无论是内在还是外在效度。在第5章中,我们就被试的不同挑选方式对内在效度的威胁作了说明。假设在一个实验中,采用5年级2个现成的教学班,其因变量是自然科学的成绩,操作性地定义为一次自然科学测验的分数。这些班级在先前已经按能力进行了分班,一个班级属高材生班,另一个班属普通水平班。两个班级接受不同的实验处理。假如,一种实验效果产生在高材生班,就很难证明这个效果归因于实验处理。因为能力水平和实验处理是混淆不清的,我们就没有把握对其结果做出解释。

任何因素都可能对原始群组起作用,同时我们无法证明这些组是否属于较大群体的随机样本。随机的挑选或组合是一个过程,它或者做得到,或者做不到。对于准实验来说,它没有做到,因此存在着被试挑选的偏差损害实验结果的可推广性的可能。

一名采用不加处理的试验组的研究者要做些什么呢?为了实验的可推广性,必须在同一的逻辑基础上对试验组的典型性加以论证。出于对内在效度的考虑,研究者必须尽力证实两个试验组间对等的程度,这需要对与所研究的变量有关的特征或变量加以认真考虑。例如,假设现在的班级运用于一个数学教学实验中,年级水平将很可能作为一个常量,或者作为一种需要控制的变量。研究者也想得到表明这些班级具有同等能力水平的证据,假如像IQ测验分数这样的实证资料可以提供的话,这会极有助于对等组的检验。实际上,这些资料有时可用于统计对照。即使采用实证性的资料,检验和确立对等组总不免带有某种基于有关实验条件和变量信息的主观判断性质。当我们解释实验结果时,必须对缺少随机性予以特别注意,因为,它可能被抵消的程度也决定了实验的内在效度的可信性。

当考虑到准实验研究的效度问题时,应该对它的缺陷有清楚的认识,并对实验组间的对等性进行确定,同时在逻辑的基础上对其可能的代表性和可推广性加以论证。 二、仅施后测、非对等控制组设计

除了不是随机地将被试组成试验组外,许多准实验设计看起来非常像前章所讨论过的实验设计。当运用“非对等”这一术语时,它意味着随机意义上的非对等,但并不是说试验组间不可能在相关变量或特征上具有相似点。的确,就准实验设计来说,对其结果效度的可信性,很大程度上取决于保证实验组间的相似性。

使用前章中所引人的符号,非对等控制组仅施后测设计的最简单的形式可以图解如下:

G1 X—O1 G2 — O2

这种设计表示:一个试验组接受实验处理,同时另一个试验组作为控制组不接受实验处理。对实验组G1完成实验处理不久,同时对两个试验组实施后测。这种设计可以推广为包括任意次的实验处理,对于k次实验处理,这种设计需要K+1个试验组:

假如运用两次或多次实验处理而没有对控制组进行实验处理,那么这种设计就可以称作非对等多组仅施后测设计。

非对等控制组仅施后测设计包含与实验处理次数一样多的实验组,再加上一个控制组。使用现成的试验组进行,仅在实验处理实施后测量被试一次。

任何实验的效度依赖于特定的实验条件,采用非对等控制组仅施后测设计的实验效度一般是较低的。这一难点可能产生于实施实验处理前挑选被试的偏差和缺少前测。除非能获得可以提供有关各试验组相似程度这样的现成资料,否则不应该采用这种实验设计。这些资料虽然不能消除被试挑选上的偏差(假设它存在的话),但它们提供的信息可以避免对实验结果的错误解释。请看下面的例子: 例6.1

一位初级中学的老师,教授初三年级4个班的自然科学课,要研究采用3种不同的新方法和传统方法(控制)对本学科实验部分的教学的影响。这位老师对4个班级分别采用一种不同的教学方法。因变量是对该课程中的实验内容实施期末考试的成绩。研究的问题可以陈述如下:

一项关于教学方法对初三年级自然科学考试成绩影响的实验研究。 实验设计的图解如图6.30

没有实施前测,但为了检查班级的相似性,查阅了其他材料,获得了以下信息: 1.在班级中,男生和女生的比例大略相等。

2.学生在先前初二年级时的自然科学成绩,1, 2和4班的大约相同,而3班学生成绩稍微高些,对于诸如数学等其他学科,初二年级时的学生成绩情况相同。

3.尽管这所学校大部分不是按学生能力分班,但有一个英语优等班;因为受课程安排时间的限制,3班的许多学生也在英语优等班里学习。

在这项研究里,教学时间和教师是常量。1班和4班上午上课;另两个班下午上课(指上自然科学实验课)。

对于可能影响考试成绩的变量,1班、2班和4班看起来很相似,然而,3班似乎是一个能力较强的班级,在解释实验结果时,这是不能不考虑的。既然任何一个班仅接受一项实验处理,那么实验处理和能力水平间可能存在着部分的混淆。

例6.1的实验结果及其解释假设后期测试呈现出以下实验结果模式:O1=O2,O1和O2大于O4,而O3又大于O1和O2。

解释:方法1和方法2都比传统方法更有效,而且方法1和方法2效果相同。既然一班在上午教学,另外两班在下午教学,这些方法看来并不受一天中时间不同的影响。我们对于方法3无法得出确切的结论;实际上,它有可能不如传统方法有效,3班后期测试的高分可能归结于学生的能力。

这个例子阐明了这样一个事实:根据实验结果的情况,准实验设计可以有多个解释。可以用方法3是有效的方法来解释O3的高分,也可以将O3的高分归因于实验组G3的高能力。假设测试结果O3比O1、O2和O4都低,那么就可以毫无疑问地说:方法3不如其他方法有效,至少对能力较高的学生无效。1班、2班和4班的相似性允许我们相对地承认运用方法1、方法2和传统方法得出的结论。 三、前测—后测非对等控制组设计

非对等控制组实验设计除了对被试也实施前测外,其他方面与非对等控制组仅施后测设计相似。这种实验设计的最简单形式仅需要两个试验组:一个实验组和一个控制组。假如不含有控制组,那么此设计称为前测一后测非对等多组设计。假如有k次实验处理,其

一般形式可以图解如下:

前测的结论对核对各试验组的相似性是非常有帮助的,因为前测的分数是与因变量有密切联系的变量。这种前测是在进行实验前在同样的条件下对所有被试都进行的测试,其分数也可用于统计控制,在有些情况下,可能会产生增益分数。

前测—后测非对等控制组设计有助于核对试验组间的相似程度,其前测的分数可用于统计控制或产生增益分数。 请看下面的例子: 例6.2

在4年级进行一项采用两种新的阅读方案的教学实验,研究各方案对学生阅读成绩可能产生的影响,这项设计的实验处理是新的阅读方案,传统的方案作为控制处理。同一学区的30个小学4年级班级参加实验,不进行随机挑选和组合。每种方案都有10名教师报

名参加,即两种新方案和一种传统方案各由10名教师来施行。当然,每名教师只能施行一种方案。先用阅读成绩测验A卷对学生进行前测;然后用这3种教学方案教学18周;随后对学生采用阅读成绩测验B卷进行后测。这项设计可图解如图6.2。

事前测试分数有助于检查各班的相似性,但这并非是能够检查的惟一变量。由30位老师施行,且每位老师仅采用一种方案。在可能影响阅读成绩的因素方面,每10个教师的构成实验组间是否相同呢?尽管各个教师间可能存在差异,但若从全体教师考虑,10个教师一组的小组间则可能很相似,其中要检查的一个要素就是每个教师教学经历的长短。如果所有经验丰富的教师都集中到一个组里,那么在各组之间就会存在一种系统性差异。

如果30个班级所在的学校分别处于诸如社会经济条件差别很大的地区,那么这点也必须加以考虑。如果把一种方案限定在一种社会经济水平不同于其他地区的学校,实验将不会得到满意效果,因为这样会造成学校影响和阅读方案影响相混淆。理想的安排方法是:每3个社会经济条件相同的学校,各执行一种方案。某些学校将可能执行两个或3个方案,尽管这种安排或许会因不同班级学生间的相互交往而导致实验数据的“污染”。

图6.2中,虽然有30个班级,但仅有3次事前测验和3次事后测验。当我们分析实验结果时,首先要核对各组的结果,但对于像此例这样的大规模研究,通过进行如下所述的更为细致的比较,对实验结果进行分门别类的整理通常是有益而又必要的。

1.假设一个方案(组)里的班级事前测试分数相似。比较这一方案内10个班级事后测验的分数,这些分数是彼此接近呢,还是差别很大?如果它们彼此相近,那么表明这个方案具有一致的效果;如果它们差别极大,那么固有的差异超过了方案的任何效果,或者说方案的效果对于各个班级是不一致的。

2.假如前测的分数变化不一,根据前测分数,将这一方案内的班级分成两个或3个类型(高、中、低)。接着检查每一类型的后测分数,来确定这一方案内各类型间和同一种类型各个方案间增益分数是否一致。例如,假设对于前测中得分高的班级,接受新方案1实验处理的增益远大于新方案2和传统方案的增益。这是一种同一类别内的跨方案比较,同时它表明第一种方案对于那些起初就有较强阅读能力的学生来说是最有效的。

3.如果这些班级前测分数相似,比较同一方案内各班级后测分数。假如它们大略也相同,那么诸如教师和学校等外部因素具有统一的影响;假如分数不相同,那么这些因素产生了不同的效果。

例6.2的实验结果及其解释

假设出现了以下结果:O1=O3=O5,但O2≠O4,而且O2、O4≠O6,但O4大于O2,O2又大于O6。

解释:根据前测结果,一开始小组间看起来十分相近,产生方案效果:两种新方案都比传统方案有效,而且第一种新方案最有效。

在许多非对等组的实验中,实验设计尽量把控制变量作为自变量包含其中(上述的社会经济水平如果能以这种方式包括在内,那它将是一个控制变量的例子)。从本质上来说,这种设计可以扩展为一种因素设计。如果随机性的某个方面得以考虑,这种实验设计的效度会大大地提高。在上述例子中,如果30个班级随机安排是不大方便的,但是将10人一组的教师分组建立在随机分配的基础上均等地进行,则是完全能办到的。这样的安排就可以使实验处理和控制处理中教师间的差异,得以折衷综合,趋于相等。当我们运用准实验设计的时候,一般都尽力让实验得到尽可能充分的控制。此外,要利用可搜集的信息来检查各组被试的相同性,对于实验结果的解释和推广应用,也应该根据这一信息的背景和实验条件来进行。 四、时间系列设计

时间系列设计包括一组准实验设计,这组设计涉及到对一个或多个原始小组的反复测量,并在至少一个实验组的两次测量之间进行一次实验处理。时间系列设计对那种过一段时间自然地周期性地对因变量进行测量的情景是有效的,如对一个班级的反复测试。观察测量应该是一致的,但因为存在多个因变量,要达到一致性可能是不容易的。

时间系列设计就是对一个或多个原始的被试组进行反复测量,并在至少一个组的两次测量之间插入实验处理。

㈠ 单组时间系列设计 一个单组时间系列设计可以简单地图解如下: G O1-O2-O3-X-O4-O5

我们已经指出,系列设计没有对被试组进行随机分配。可以有任何可能次数的观察或测量,实验处理的插入,可随机地进行。观察测量可以与例行的考试合并进行,如在一个班级中每4个星期一次的测验。

时间系列设计的一个特征就是可能的结果模式有很多。这就产生了一个内在效度的问题,尤其是仅有一个被试组的实验,对于实验结果可能有其他解释,而未必是实验处理的效果。图6.3表示了3种可能出现的结果模式。坐标中横轴上的OS代表测量,纵轴代表因变量的量度。

任何一个特定的实验和一种因变量,只能有一种结果模式。对于A模式的解释是:这项实验处理显然是有效的。直线的倾斜度直到第5、6次测量之间才趋于平缓。从表现上看,B模式好像没有什么实验处理的效果。然而最后两次测量间出现的明显上升,则可能说明这一实验处理不是无效,而是迟效。如果没有明显的外部事件造成这一变化,那么以实验处理效果来解释当然是合乎情理的。鉴于此因,预见到实验处理的介入与实验效果的出现之间的间隔时间,是很重要的。对于一定的变量,在B模式中的效果和它在A模式中的效果一样明确。应该指出,随着时间间隔的延长,无关干扰事件介入的可能性也会相应增加。

C模式的不规则曲线,几乎排除了对实验处理做出结论的可能性。由于没有控制组,很难推断不受实验处理的结果模式会怎样。各测量点之间的波动可能表示有其他因素发挥了作用,而且其作用的强度超过了实验处理的效果。这时候,有必要对实验加强控制,直至它灵敏地反映出实验处理的效果来。然而,我们不能根据C模式的曲线得出实验处理无效的结论。

时间系列设计中的多次观测是颇有用处的,它不仅能使研究者据此确定实验处理的可能效果,而且在效果可能不出现时,使研究者避免做出草率的推论。思考一下C模式,如果只有O3和O4两个观测结果,那么研究者将做出结论:实验处理有效。其实两次观测结果的差异可能更应归结于其他因素。对于B模式,如果只观测O3和O(甚至再加上O5),4那么可能存在的迟效将会被忽略。因此,全面地考虑整个模式是很重要的。请看下面的例子:

例6.3

一位理疗师在对12个人一组的病人实施一项为期9星期的康复计划。小组成员每天都要接受治疗,在每周末根据一份身体能力测试表进行测试。除了第7周(在随机的基础上决定的)期间施行一种实验治疗法之外,都采用一种传统类型的治疗法。此项设计可以图解如下:

G O1-O2-O3-O4-O5-O6-X-O7-O8

假设此项实验的实验结果呈现如图6.4所示的模式,这些实验结果将怎样解释呢?有力的证据表明:实验治疗法要比传统治疗法更有效。前6周的身体改善状况的模式非常一致,但整个第7周,曲线呈现出急剧上升趋势。在第8周期间,身体好转的状况又恢复到早期水平。这样,除非有某种其他因素影响,否则为何第7周期间体质测试成绩上升很快呢?这为解释实验效果提供了很好的事实。

在此实验中,保持观测的一致性是没有问题的,因为贯穿实验始终,都采用同一份体质成绩测试标准。我们来看另外一种情况。一位小学教师运用时间系列设计来检验拼写练习中个别练习与小组练习的效果,他以所教的班作试验组,每周这个班都在课外安排一定的时间来进行拼写练习,而且每星期五进行一次测验。平时的练习方式都是个别练习,但6周后的一个星期,采用小组练习的方式,并作为实验处理来进行。

这一实例中的一个重要问题,就是保持每周测验难度水平的一致。如果小组练习之后的测验比其他星期的测验容易,那么这一周班级的分数就会偏高,较容易的测试干扰了对实验结果的解释。当然,无论练习的方式如何,练习时间的长度应该是个常量。

㈡ 多组时间系列设计

单组时间系列设计可以扩展,使其包括两个或两个以上的组。这种实验设计通常包括一个控制组,这种情况的设计例子可以图解如下:

此外,可以进行任意次数的观测,并且实验处理随机地插入一个实验组,各组测量的次数也要相等。

多组时间系列设计包含两个或两个以上的原始被试组,其中一个小组可以作为一个控制组,应至少对一个小组插入实验处理。

两个或两个以上小组得出的结果巩固了多组时间系列设计的地位,因为它为实验提供了比较,因而也就增强了实验的内在效度。例如,这种设计提供了一种检验伴随实验处理的外部事件是否起作用的可能性。假设在一个有控制组的实验设计中,对实验组实施实验处理之后,立刻进行观测所得的观测结果表明:两组都产生一个非常大的增长。既然在两组中都产生了这种增长,这就不能说是一种实验的效果(因为控制组没有接受实验处理),因此这很可能归因于同时影响两个组的某种外部因素。

在实验处理之前进行观测的结果可以用于检查小组间的相似性。对于任何多组准实验设计,小组间的相似性越大,从实验结果中得出的结论就越可靠。请看下面的例子: 例6.4

一个老师教1年级3个班的代数,他决定进行一项研究,其研究问题可以陈述如下:

一项关于不同反馈类型对代数成绩影响的研究。

在这个学期中,这位老师进行了5次同等难度的一小时代数测验。尽管随着教学的进展,这些测验涵盖了不同的教学内容,但因为老师精心采用了难度水平大致相等的题目设计试卷,因而每次测验具有大体相同的难度。在第2次和第3次测验之间,教师给1班以正反馈(X1);给2班以负反馈(X2),对第3班不做任何反馈(控制处理)。这项实验的图解如图6.5。

这一实验设计不但可以使教师在两个实验组间做比较,而且也可以在实验组与控制组间进行比较。注意到实验处理仅在两次观测之间实施,在这一点上,我们可以考虑可能的实验结果模式和可以做的有关解释。因为有很多的观测值,解释结果就需要我们对之加以整理。下列格局我们可以独立地加以考虑。

解释:正反馈(X1)提高了学习成绩,其效果持续到第4次观测O4;负反馈(X2)降低了学习成绩,但它仅产生了一个短暂的影响效果。因为第3组G3的学习成绩高度一致,看起来不像有任何外部因素在导致成绩发生变化。尽管没有随机地安排各被试组,但依据代数考试成绩,最初各班的考试分数是相等的,所以各小组在实施实验处理前看起来是大体相似的。

解释:因为这种模式中第3组(G3)和第2组(G2)相同,那么负反馈(X2)无效。正反馈X,提高了学习成绩,至少显示了有直接的效果。因为所有的班级在第4次测验中成绩都提高了,所以很难对正反馈(X1)的长效性做出任何推断。各个班级代数成绩的一致提高很可能归结于一种外部因素。无论什么因素引起了这种增长,它都产生了一种持续到第5次测验的效果。既然各班开始测试的分数都相等,因此各班在实验开始时看起来是相似的。

当然,伴随大量的观察,像上面的事例,有可能出现大量不同的结果模式。假如这些模式都是无规则的,要得出一般性结论往往是困难的;如本例中,若各班的观测结果始终波动不定,就很难得出结论。另外,如果先于引入实验处理前的各班测试得分存在差异,那么就很可能存在一种选样的偏差。

㈢ 时间系列设计的变形

前面的讨论集中在单组和多组时间系列设计—这是时间系列设计的基本形式。然而,有一些实验设计的变型也可归于这种设计中。在时间系列设计中观测的次数依赖于所研究的变量,但应该有足以建立结果模式的充分的观测值。其中一种变形是增加时间系列中观测的次数,对于长期的实验或对于那些观测值可以紧密排序的实验,观测的次数甚至可能达到15次或20次。假如实验时间被延长,增加观测的次数确实会增加外部因素产生作用的可能性。

另一种变形是在时间系列中插入多于一次的实验处理。如果时间系列被延长,这种变异是很有可能的。多次插入实验处理为这项实验效果(如果这一效果存在的话)的一致性,提供了一种核对的条件。有两种途径可以完成实验处理的多次插入:(1)以随机的方式两次或两次以上将实验处理插入时间系列;(2)一旦将实验处理插入,那么使它继续保持在实验的后续部分中。这两种方法可以图解如下: 1.多次随机插入X

G O1-O2-X-O3-O4-O5-X-O6-O7-O8 2.连续插入X

G O1-O2-O3-X-O4-X-O5-X-O6-X-O7-X-O8

这些方法中的任何一个都可用在上例代数班级的实验处理中。X1和X2的两种强化可以多次随机地插人时间系列中;或者在它们第一次插人后,将它们持续地保持在这一学期的后续部分实验中。 五、单个被试设计

教育研究中大多数实验研究涉及的是包含多个被试的群体,换言之,我们试图通过实验获得可用于群体而不是个体的实验结果。然而,对于有些实验情境,采用个体被试是合适而且是必要的——本质上讲,样本就是一个。在这些单个被试情境中,基本的实验方法是研究在实验条件和非实验条件下的个体。

单个被试研究有助于教师从事个别学生的研究(可能的行动研究)。以个体的方式对学生进行指导的辅导员,就可以使用单个被试设计。那些康复和理疗领域的研究者也可采用个别研究。一般来说,一个被试因为某种情况或问题参与一项研究,不存在随机挑选或分配的问题。因此,单个被试设计通常被认为是准实验设计。

单个被试设计一般要进行反复观测,有时要对因变量进行好几次观测。而且观测要高标准严控制,这样,观测的差异才不至于被解释为一种实验效果。我们必须对实验的条件加以细心描述,这样不但能加强实验结果的解释,而且有助于对实验结果的可推广性做出判断。

单个被试设计具有常被称为“单一变量规则”的特征。其意思是,在实验处理实施期间,仅有一个变量(即实验处理)改变。在传统处理(或称基线处理)和实验处理期间,所有其他条件——诸如时间长度、观测次数等,都保持不变。为了避免把某种其他效果误解为实验处理效果,有必要对实验结果做出解释。

传统的处理或正常条件起作用的这段时间被称为基线,这段时间应该长得足以保证因变量得以稳定。假如一个因变量正波动不定时,实施了实验处理,那么就不可能判定因变量的变化是否归因于实验处理。

单个被试设计通常要进行反复观测,同时它还适用于“单一变量规则”—— 一次实验仅改变一个变量。

正如其他任何准实验设计一样,效度也是单个被试设计需要关注的一个问题。研究者必须对内在效度加以确定,然后才能对实施结果做出解释。同时要考虑到对实验观测结果(非实验效果)的其他解释,正如我们所希望的,对这些解释要去伪存真。面对多种的解释,有必要尽可能保持对实验的控制,同时要了解研究中可能起作用的其他变量的属性。外部效度依赖于研究工作和其他情景的相似性,这必须在一种逻辑的基础上加以论证。

㈠ A-B设计

我们采用一组相当独特的符号来表示单组被试设计,A和B用来代表实验条件:A表示基线条件,B表示实验处理条件。既然实验使用个体被试,就不需要被试组符号。 A-B设计是最简单的单个被试设计。一般来说,这种设计可以图解如下:

在这一设计中,研究者要在基线条件下观测单个的被试,直到因变量趋于稳定。接着将实验处理引人实验,再对被试进行相同次数的观测。图底部的TA和TB代表着实验设计中的时间段,并且TA = TB。

对A-B设计实验结果的解释是建立在这样的假设基础上的,即要是实验处理没有引人的话,基线条件下的观测结果就不会发生变化。这种设计极易受其他变量的影响,这些变量可能与被试的经历和成熟有关,并可能被作为实验处理效果的成因来解释。这当然会成为对内部效度的一种威胁。既然两种条件之间产生的变化仅有一次,在某种意义上,就其内在效度而论,A-B是最差的单组被试设计。

例6.5

一位新老师陷入课堂管理的困境,而一位经验丰富的教师正在帮助这位新教师解决这一难题。这位经验丰富的教师对新教师进行了为期4周、每周两次的观测,采用的是一份教师表现观察记录表,诸如《有效研究的主要课堂观察表(COKER)》,这段时间属于基线时间(A)。 8次观测所得的资料组成了基线资料。在这4周期间,新教师的课堂表现非常稳定。

实验处理(B)是两位教师半个小时的磋商,其间经验丰富的老师讨论了新教师的课堂表现并尽量指导新教师的行为向改善课堂管理的方向转变。这种磋商进行了9次,第一次是在实验处理条件B下的第一次观测之前,随后每进行一次观测紧接着一次磋商。就像条件A一样,条件B也实施4个星期,而且8次B条件下的观测也是在与A条件相同的情况(同样的班级、同样长的时间、一天的同一时间等等)下进行,惟一不同的是实验处理。这一研究的实验设计可以图解为图6.6。实验资料是用COKER记录表观测到的。

例6.5结果模式1 从O1到O8的观测值是稳定的,这使我们确信教师的目前行为不能改善课堂的管理。接着从O9开始到O14,观测值呈上升趋势,说明教师的行为改善了课堂管理,然后从O14到O16观测结果又趋于稳定。这一观测结果标示在图6.6中。

解释:这样一个结果模式,无可置疑地证明了实验处理取得了期望的效果。教师的课堂管理行为得以改善并处于一个稳定的状态。然而,这种实验结果也可能归因于新教师的自然成熟,加之由于时间相对较短,把这作为实验结果的另一种解释未必是正确的。 例6.5结果模式2 从O1到O5之间,曲线表现出较大的波动,但O5到O8较稳定。从O9到O16,除了教师改善课堂管理的行为观测值稍高外,其曲线具有和从O1到O5一样的波动模式。

解释:对于这些实验结果几乎不可能得到确切的解释。新教师的课堂表现非常不稳定,尽管实验处理似乎稍微改进了教师的表现,但在整个4周的时间内,教师课堂表现的稳定性并没有提高。显然,存在着诸如课堂条件或教师情感等其他变量的影响,并且其效果超过了实验的效果。

关于这项研究结果的推广性如何呢?假如结果模式1恰是我们用以推论的实验结果,那么这些结果将可以推广到其他新教师身上去,推广到那些具有和这项研究的老师特征相似和在类似的条件下教学的新教师。推广性必须经过详尽描述才能确立,这样才能证明推广情境与实验情境的相似性。因为这些教师要竭力解决的是一种即刻的、局部的问题,所以他们可能不太关心实验的推广应用性。

㈡ A-B-A设计

A-B-A设计是A-B设计的展开,它是紧接着实验处理这段时间又引入了一段时间的基线条件。此类设计因为实验处理在后期被取消,又可称为取消设计或删除设计。除了从基线条件到实验处理条件,再回到基线条件这一变化,其他特征——像持续时间的长短、观测的次数,都保持不变。与A-B设计相比,额外增加了基线条件的时间,实验结果模式得以扩展,因而实验的内部效度有所提高。对这一设计还需说明:每一基线条件或实验条件期间,所观测的次数相同;时间是个常量,TA= TB。请看下面的例子:

例6.6

一教师有一学生,他的课堂行为极具消极性——表现为在课堂上连续而有破坏性地插嘴。这位教师对这一学生引起的破坏性情况进行了每周一次的记录。这种行为持续了3个星期基本不变,这段时间可作为基线条件。接着3星期,教师对学生进行每周两次的个别咨询,这些咨询作为实验处理,每周一和周四各进行半小时。3个星期以后,这种咨询暂时停止。随后的另外3周,停止个别咨询恢复到原来的基线条件,教师继续搜集有关因变量的资料(整个星期中该学生造成破坏性情况的次数)。随后的3周基线条件与前一个基线条件相比较,没有其他明显变化,班级、所教学科等等都保持相同。这项研究图解如图6.7。

例6.6结果模式1 (符号的使用与第5章所介绍的一致,“=”意思是大约相同)。O1=O2=O3=O7=O8 =O9,同时O4=O5=O6,但是O1、O2、O3、O7、O8、O9都大于O4、O5、O6。(注:因变量是学生在班级中造成破坏性情况的次数,因此低分是教师所期望的)。

解释:个别咨询取得了满意的效果,但这仅仅是一种短暂的效果。当这种咨询停止后,学生的课堂行为又恢复到老样子。好像无关变量并没有与实验处理一致的影响。

例6.6结果模式2 O1= O2 = O3,O4=O5 = O6,同时,O7=O8=O9,但O7、O8、O9比O4、O5、O6小,而O4、O5、O6又比O1、O2、O3小。

解释:这一结果模式产生了两种或两种以上的解释,因此,我们无法确定实验效果。或许存在一种实验处理效果,假如真有,它也是暂时的,但还有一种加速的持久效果,这一效果可能是难以解释的。有一种可能,就是某种与成熟相关联的变量在起作用。如果从O4到O9曲线呈现出持续的下降,而不单单是O6到O7之间的降低,那么这种解释的可能性会更大。

当然,可能有许多的实验结果模式,例如从O4到O9,实验结果产生剧烈波动,那就不能做出有关实验效果的任何结论。实验处理可能在与干扰变量交互作用,或许学生的消极行为已经变得不稳定了,而这或许是,或许不是由实验处理所导致的。

㈢ A-B-A-B设计

如果我们将,A-B-A设计扩展,使之再包含一段实验处理期,那么它就成为A-B-A-B设计了。因为有了连续的观测值,而且因为基线条件和实验处理经历了两次循环,因此可以说,A-B-A-B设计同A-B和A-B-A设计相比,提高了内在效度。如果两次循环的实验结果模式一致,那么可怀着极大的信心得出有关实验效果的结论。A-B-A-B设计可图解如下:

与前面的设计一样,除了实验处理的引入,基线条件和实验处理的其他特征都是相似的。观测的次数相同,TA=TB等等,因而这一设计体现出单一变量的规则。请看下面的例子:

例6.7

我们将把A-B-A设计中的例子延伸到A-B-A-B设计。这位老师决定在第2个基线条件期结束以后,继续对那位具有破坏性的学生进行第2次为期3周的个别咨询。这项研究图解为图6.8。需要说明的是,这一设计可简单地看做是图6.7中的设计的延伸,其主要区别在于A-B-A-B设计的研究工作从9周延长到12周,同时从实验处理中获得另外的一组3次观测值。

例6.7结果模式1 O1=O2=O3, O4=O5=O6, O7=O8=O9,Ol0=O11=O12;O1、O2、O3比其它任何观测值OS都大;O10、O11、O12比其他任何观测值OS都小;O4、O5、O6比O7、O8、O9小,但又比O10、O11、O12大。

解释:我们可以得出结论:实验处理产生了一种积极的效果。当实验处理停止时,学生的行为部分地恢复到原样,但当实验处理再开始时,积极的效果再次出现。3周期间,学生在这种条件下的行为表现是稳定的。看起来不像有干扰变量伴随着实验处理一贯地产生影响。

例6.7实验结果模式2 O1=O2= O3= O7=O8=O9,O4、O5、O6相互不等,且不等于O1;O10、O11、O12相互不等,且不等于O1或O4、O5、O6。

解释:我们把这一结果模式的因变量分数在图上标示出来(如图6.9)。实验处理期间,因变量反复无常的波动使我们无法得出关于个别咨询效果的任何结论,无论是积极的,还是消极的。两个实验处理期的结果模式是不同的,因此,即使产生了咨询的效果,那它也是不一致的。大概我们惟一能得出的结论便是:个别咨询导致了学生行为变化或变得不稳定。这可能归因于实验处理和某种干扰变量的相互作用。因为两个基线期的学生行为都是同样稳定的,因而我们也可以说个别咨询没有产生长久的效果。

这些实验结果的推广性如何呢?这位老师可能将这一结果推广运用到其他年龄、品性与之相似,并且表现出相同类型的破坏性行为的学生。至于推广到其他老师、学生或其他问题行为上去,必须在逻辑上慎重考虑。为了结果的有效推广,还需要有在那种情境中进行个别咨询的知识,了解可能出现的效果。既然这是一个行动研究的例子,教师可能并不关心结果的推广性。要是出现了结果模式I的情况,教师就解决了这一问题。其他教师也许会对这一结果感兴趣,并在同一逻辑基础上将之推广到他们自己的情境中去。

㈣多重基线设计

还有一种设计称为多重基线设计,它可以看作单个被试设计的修正。这种设计运用了A-B设计的逻辑,但并不限于一个被试、一种行为和一种情境,它们包含两个或两个以上的行为、情境和被试,或者这些项目的某种组合。因为这种设计基于不同的行为、情境和被试,所以它们包含多重基线。一般来说,一旦一种实验处理作用于一个被试,这种处理就要继续下去,因此,这种设计应用于那些实验处理开始后就不宜再撤除的研究。

⒈多重基线设计行为交叉 在这种实验设计中,一个被试在同一种情境中的两类或两类以上的行为表现受到观测。等到各类行为基线都稳定了,才将实验处理运用到其中一类行为中,并保持一段特定的时间;接着再将实验处理以相等的时间应用到第二类行为上,以此类推。如果实验处理实施之后,各类行为都产生了一致的变化,便为实验效果的存在提供了有力证据。

需要对这个设计作重点考虑的是行为表现的自变量。假如两类或两类以上的行为在其表现中是相互关联的,当我们对第一种行为进行实验处理时,它可能导致其余行为的变化。因此,这种设计最好运用于各类行为相互分散和独立的情境中。

⒉ 多重基线设计被试交叉

这种设计采用两个或两个以上的被试,不过他们是作为单独被试分别参与到实验中的。多重基线产生于多个被试。在基线行为稳定以后,对一个被试施行实验处理;经过特定一段时间后,接着让第二个被试开始接受实验处理,以此类推。就实验处理来说,参与实验的各个被试相互独立是很关键的。只有这样,对一个被试实施实验处理才不会影响其他被试。如果一位教师采用这种设计,除非各个被试是从不同班级抽出来的,否则,要保持两个被试相互独立是很困难的。

⒊ 多重基线设计情境交叉

这种设计的基线是同一被试的同一行为所处的不同情境。基线行为表现确立后,研究者将实验处理应用到一种情境中。经过特定一段时间后,这种处理再应用到第二种情境,以此类推。这一设计从本质上讲与多重基线设计行为交叉设计是相同的,只是变化着的情境代替了变化着的行为。正如前面所讨论的单个被试设计一样,多重基线设计在实验处理的施行期间,时间间隔和观测次数都是常数;至少在任何实验处理开始施行的时候,这两者是不变的。请看下面的例子:

例6.8

这儿所举的例子是一个多重基线情境交叉设计。一位教师计划给一个学生对阅读、数学和社会学科这3门课进行个别化教学,因为这个学生在这3门功课学习上存在困难。个别化教学首先运用到阅读课,2周后运用到数学课,接着社会学科也采用个别教学。当个

别化教学用于一门学科以后,在整个研究过程中都继续使用。在这项研究中存在着3个因变量:学生的阅读、数学和社会学科的成绩。每隔两周,研究者对每一个变量观测4次。从操作上来说,因变量就是由教师所确立的教学目标的实现百分数。

这一实验设计图解如图6.10所示。需要说明一下,对于3门学科都有一个为时2周的起始基线期。数学和社会科学的基线期分别持续了另外的2周和4周,它们各自把个别化教学引入其中。整个研究历时8周。

例6.8实验结果的模式 既然有3个因变量,而每个因变量要观测16次,那么就要获得48个有关被试的分数。因为每个因变量各有一组16个分数,每个因变量都有一个模式,所以可能有很多结果模式。这里不是列出48个分数,而是给出一个可能的结果模式,如图6.11。

解释:实验处理(个别化教学)看起来产生了一种效果,但这一效果在各情境(被试各门学科)中并不稳定。在阅读课中,呈现出一种逐渐上升趋势,产生一种正效应。在数学课中,实验处理引入后,模式曲线极不规则,第1l和第14个观测值的增加可能归因于一种外部变量;或许在这点上的教学目标,对被试来说简单而较容易达到。因此,不能总结说:这些增长归因于实验处理。对于社会学科来说,实验处理表现为一种迅速而持续的正面效果。概括地说,我们能得出结论:个别化教学对学生阅读和社会学科的成绩确实有效;这种效果对两门学科的作用都是正面的,但对阅读的作用是渐进的。如果说对数学也

有效的话,个别化教学的结果可能是学生数学成绩的波动,也可能是数学成绩有略微的提高。

多重基线设计一下子复杂起来了,而且实验结果的解释要求对结果进行大量的分类整理。依据所研究的变量,这些设计可以被改为包含取消条件(实验处理的撤除)的设计,这将使设计变得更加错综复杂。对于这样的设计,A-B-A或A-B-A-B格式可能被采用。然而,因为其复杂性,这种设计一般仅仅在简单设计不能够完成一项特别研究时,才被使用。如果可以获得足够的内部效度,那么多重基线设计要比单基线设计会有更大的外在效度。这是因为在这种设计中包含了被试的多种行为、情境。 六、行动研究与准实验研究

在第1章中我们把行动研究定义为由地方教育工作者进行的研究,而没有把它作为一种独立的研究方法。行动研究可运用各种定量的或定性的研究方法,当行动研究涉及到实验时,它在性质上更接近准实验研究。教师、顾问、管理人员很少有随机地选择和安排被试以便进行实验处理的机会,更多的情况是,作为行动研究被试的学生已分到班中,或者学生作为研究被试是因为他们具有研究所需要的特征而不需要进行随机组合。例如,一个接受咨询服务的学生是因为他有咨询的必要,而一名教师用一种新的教学方法讲授历史课是因为他想了解新方法的效果,而班上的学生接受这一教学方法是因为他们是这个班里的成员,他们是因为某种原因而“自我选择”了这一班级,而不是随机安排的结果。

因为行动研究经常用于原始群体和个人,如果在研究中涉及到实验处理,这样的研究往往是准实验研究,大量的行动研究都是准实验研究。尤为值得一提的是单个被试研究设计,它是本章中其他研究设计的修改和延伸。单个被试设计对中小学的顾问来说是非常有用的,因为他们主要是同单一的个体进行接触,教师们旨在帮助个别学生的矫正教学和改进教学,也可以运用单个被试设计。当一个或多个教师对一个或多个班级进行教学法实验时,更多使用的设计类型是准实验设计中的仅施后测设计或前测—后测实验设计。

行动研究含有实验时,所使用的研究设计很可能是准实验设计。

总 结

本章讨论了准实验研究,这种研究用于被试不是被随机地挑选和安排的设计中。随机性的缺乏造成了确定研究效度的潜在问题。当我们使用原始的或自然形成的被试组时,有可能带来挑选的偏差,这样一来,小组间的相似性(或缺乏相似性)必须加以考虑。在单个被试设计中,被试的选择通常是因为某种问题或某种情景与这一被试有关,在单个被试设计中使用的被试几乎都没有随机挑选过。

尽管使用现成的小组或指定的被试可能会对效度造成威胁,但如果对研究的设计给以充分的注意,那么采用它们还是有效的。在教育研究中,不可能总是随机组合的现成实验组。然而,假如实验结果可以解释,那么使用现成的小组也能产生有价值的实验结果。 当我们使用两个基本点或两个基本点以上的现成被试组时,研究的信度依赖各个小组间相关变量相似的程度。相对于随机性来说,各组是非对等的,但它们之间的相似性是可以确定的。因此,适当地通过某种前测,掌握有关部门各实验组实验处理前的信息资料是很重要的。关于实验结果的可推广性要在同一逻辑的基础上加以论证。

当研究集中于被试个体而不是被试群体时,例如,在老师或辅导员对于个别学生进行实验时,我们采用单个被试设计。这种设计需要多次的观察和测量,基线条件和实验处理交叉进行。单个被试设计具有对施行实验处理的严格控制和对被试资料的广泛收集这些特征,然而,因为这些常常是在自然背景下进行的,所以干扰变量可能会产生影响。这种

研究通常涉及大量的资料收集,同时对实验结果的分析可能需要大量的资料分类和整理。在图上标出这些实验资料对鉴别出显著的结果模式是有帮助的。

当含有实验设计的行动研究应用于学校时,本章论及的一些概念是相当有用的。行动研究通常在原始群体和个体中进行,该研究中作为被试的学生往往不是从群体中随机抽取,所接受的实验处理也不具有随机性。

本章和前一章介绍了实验研究和准实验研究,并且对此类研究中比较常用的设计进行了讨论。然而,为了适应具体的研究情况,可以对这些实验设计进行一些改动,例如,一个时间系列设计,我们采用随机安排的方式进行分组,并进行某种形式的反复观测,这样一来我们将形成一种“真”实验设计。重要的是使我们的设计适合实验的目标。只有对一项实验实行充分的控制,实验的结果才能得到令人信服的解释,并可按照我们的意图加以推广。

因篇幅问题不能全部显示,请点此查看更多更全内容

Top