语言测试混合方法研究的设计类型与质量标准

360影视 2025-02-03 00:02 2

摘要:混合方法研究是“一种研究取向,在社会科学、行为科学和健康科学等领域,研究者收集、整合量化( 封闭式) 数据和质性(开放式) 数据,而后在整合两类数据优势合力的基础上进行诠释,以更好地理解研究问题”(Creswell,2014: 2)。混合方法研究中的“混合”既

感谢您关注“永大英语”!

黄永亮 王佳雨

1. 引言

混合方法研究是“一种研究取向,在社会科学、行为科学和健康科学等领域,研究者收集、整合量化( 封闭式) 数据和质性(开放式) 数据,而后在整合两类数据优势合力的基础上进行诠释,以更好地理解研究问题”(Creswell,2014: 2)。混合方法研究中的“混合”既体现在研究方法上,又体现在研究设计上,还体现在哲学观上。具体而言,研究者首先要依据研究问题和研究假设谨慎地收集、分析质性数据和量化数据,接着要整合两类数据及其结果,继而将上述步骤纳入具体、明确的研究设计,并将研究设计置于相关理论和哲学观的框架之内(Creswell & Clark,2018)。混合方法研究能够回答质性研究或量化研究单一研究路径无法回答的问题,能够提供更多的证据并进行更有力的推论,能对研究问题提供更加多元的解答视角(Teddlie & Tashakkori,2003),是继量化研究和质性研究之后教育研究领域的“第三种研究范式”(Johnson & Onwuegbuzie,2004: 14)。近年来混合方法研究在教育研究领域愈发受到重视(侯家英等,2023),语言测试领域亦是如此(张培欣等,2021)。

然而,语言测试领域的混合方法研究的质量尚不够理想(Jang et al.,2014; 袁雪寒、韩宝成,2023)。本文通过考察混合方法研究的设计类型及其在语言测试研究中的应用现状,探析混合方法研究质量的评价标准、模型与指标,反思语言测试领域混合方法研究质量提升的潜在空间,以助力语言测试学科的发展。

2. 语言测试混合方法研究的设计类型

2.1 混合方法研究的设计类型

依据Creswell & Clark(2018)、Dawadi et al. (2021)、Riazi(2017)等学者的观点,混合方法研究的设计包括基础设计和高阶设计两种类型。

基础设计包括会合式设计(convergent design)、解释式序列设计(explanatory sequential design)和探索式次序设计(exploratory sequential design)三种类型。基础设计是混合方法研究方案设计的核心。其中,会合式设计意在融合量化数据与质性数据分析的结果。因为量化数据和质性数据两种数据形式能够提供不同的观点,融合二者有助于从多元视角审视研究问题,所以这种融合可为具体研究问题提供整合式的解决方案。解释性序列设计意在融合量化数据和质性数据进行分段研究,首先通过量化手段收集、分析数据,然后采用质性手段解释上述量化结果。

第一阶段的量化研究能够提供较为概括的结果,后一阶段的质性研究能够结合具体情境对前期量化结果进行更加深入的解读。探索式次序设计意在使用质性手段收集、分析数据,并初步探索研究问题,然后运用上述质性结果开发量化研究所需的测量单元、新的测量工具或新的实验介入活动,进而在下一阶段加以应用探索式次序设计既需要投入较长的时间,又需要利用质性研究的结果并将其转化为新的研究变量、新的测量工具或新的实验介入活动,因此,在一定意义上讲,它在三种基础设计中的难度最大。混合方法研究的高阶设计包括介入设计(intervention design)、个案研究设计(case study design)、参与式社会正义设计(participatory-social justice design)和多阶段评估设计(evaluation design)四种类型。相较基础设计,高阶设计更为复杂,整体难度也更大。

2.2 语言测试中的混合方法研究设计

如同其他社会科学和行为科学领域,混合方法研究设计在语言测试领域愈发受到重视,研究成果不断涌现,而且有着不断增长的趋势(Jang et al.,2014)。2013—2022年仅在Language Testing、Language Assessment Quarterly和Assessing Writing三种语言测试期刊共计发表83篇采用混合方法研究设计的文章( 袁雪寒、韩宝成,2023) 。纵观三十余年来语言测试领域涉及混合方法研究设计的研究成果,依据其研究特点,大致可分为“无名有实”型混合方法研究设计、“半名半实”型混合方法研究设计和“名实兼备”型混合方法研究设计三类。

2.2.1 “无名有实”型混合方法研究设计

该类研究的共同特征是其研究方法部分未明确提及、讨论或直接使用“混合方法研究设计”这一名称,却在研究的其他部分触及了混合方法研究设计的实质,故称为“无名有实”型混合方法研究设计。该类混合方法研究设计包括三种情况:

(1) 研究方法部分未明确提及或讨论混合方法研究设计,却融合了不同研究取向,在研究结果部分同时报告了质性和量化数据,并对数据进行了相应的解读。如 Brown (2003) 研究口语测试考官对考生口语能力认知的个体差异及其对考生口语作答表现评价的影响; Clapham(1996)考察背景知识对阅读理解测试作答表现的影响。

(2) 研究方法部分未直接使用“混合方法研究设计”的名称,取而代之的是“同时采用不同研究类型”或“ 同时使用质性和量化数据或进行质性和量化数据分析” 等表述(Lynch,1992; Phakiti,2003; Uiterwijk & Vallen,2005)。

(3) 研究方法部分未提及使用“混合方法研究设计”,却在通读研究结果讨论部分后能够推断出该研究确实采用了“混合方法研究设计”。如Ekkens & Winke(2009)在研究结果讨论部分同时使用标准化测试和学习日志两类数据来考察为工作场所开发的语言项目; Kiddle & Kormos(2011)则同时使用测试成绩和调查问卷两类数据来考察口语测试中半直接型和面对面型回应方式的不同影响。

2.2.2 “半名半实”型混合方法研究设计

该类研究虽未明确提及、讨论或直接使用“混合方法研究设计”这一名称,但其研究方法部分明确提及“混合方法研究设计”的部分要素,故称为“半名半实”型混合方法研究设计。例如,Barkaoui(2010) 的研究采用研究参与者作答分数和评分员对相应评分的书面解释等数据,分析英语作为第二语言作文写作题目整体评分及评分员的评价标准与其评阅经验之间的关系; Kim(2008) 采用问卷调查、访谈、内容分析、焦点小组访谈、描述性数据统计分析等方式收集数据,依据效应驱动原则,结合以证据为中心的测试设计框架(ECD),开发读写结合的综合型ESL诊断测试任务,并进行相应的效度论证; Plakans & Gebril(2012)采用调查问卷、有声思维、个人访谈、对研究参与者作答分数进行描述性统计分析和卡方检验等方式收集数据,分析读写结合型测试任务中所用测试材料的来源特征对研究参与者作答的影响。

2.2.3 “名实兼备”型混合方法研究设计

该类研究的研究方法部分明确说明使用了“混合方法研究” ,并对其研究设计的具体类型及步骤进行了详细的说明,故称为“名实兼备”型混合方法研究设计。混合方法研究设计流程示意图可有效揭示各设计要素之间的关系,因而是否提供混合方法研究设计流程示意图可视作一个简单的分类标准。据此标准,该类混合方法研究设计包括两种情况:

(1) 研究中未提供混合方法研究设计流程示意图。Baker(2012) 的混合方法研究设计采用评分员书面有声报告(write-aloud protocols) 和研究参与者的测试分数两类数据,分析评分员决策认知过程中的个体差异。Grabowski (2009)的混合方法研究设计采用概化理论、多面Rasch模型、话语分析等方式收集数据,考察拟测语法知识和语用知识的口语测试的构念效度。Kim( 2009)的混合方法研究设计采用研究参与者的测试分数和教师评分员书面评价两类数据,比较半直接英语口语测试中本族语教师和非本族语教师在考生口语作答评分中的不同特征。Lee & Greene(2007)的混合方法研究设计采用相关数据库、问卷调查、访谈、描述性统计分析等方式收集数据,分析英语作为第二语言的研究生分班测试分数与学习成绩平均基点、教师评价、学生自评等三种学术表现评价手段之间的关系。Neumann(2011)的混合方法研究设计采用研究参与者作答分数和教师评分员对评阅分数的书面解释两类数据,比较教师评分员对二语学术写作测试的语法能力评分中表现出来的异同点。

(2) 研究中明确提供了清晰的混合研究设计流程示意图。Galaczi & Khabbazbashi (2016) 采用多阶段探索式次序设计开发高利害二语口语测试评分量表。该研究分三阶段进行。第一阶段采用话语分析和主题分析等手段收集、分析质性数据; 第二阶段同时采用有声思维和多层面Rasch模型等手段分析评分量表描述语,收集质性数据和量化数据,该阶段自身属于会合式次序设计; 第三阶段采用多层面Rasch模型分析评分员评分一致性以验证评分量表和测试的效度。该研究能够让质性研究和量化研究的互补优势得以发挥,能够整合上述研究结果进行元推理,努力平衡上述研究方法的不足之处,通过有力的论证让评分量表的效度得到保障。

Elliott & Lim(2016)采用多阶段会合设计开发剑桥高级证书(CAE)新测试任务。该研究分三阶段进行。第一阶段通过文献回顾论证新测试任务研发的必要性,进而初步确定测试任务说明和新的测试任务样例; 第二阶段同时采用Rasch模型和专家判断收集、分析量化和质性数据,前者通过Rasch模型分析试测过程中研究参与者作答成绩,以论证测试任务的评分效度,后者依据社会认知框架(SCF)通过专家判断,分析测试任务的认知效度和情境效度; 第三阶段通过Rasch模型收集、分析测试任务的情境效度和评分效度相关证据。该研究运用会合研究设计研发新的阅读测试任务的同时,也在社会认知框架下对其预期使用进行效度论证,展现该测试任务良好的效度。

Vidakovic’ & Robinson(2016)采用探索式次序设计研发法律英语测试任务。该研究分三个阶段进行。第一阶段采用焦点小组讨论、开放式书面评论、开放式调查问卷和专家判断等手段收集、分析质性数据进行需求分析; 第二、三阶段统计分析上述数据中关键信息的出现的频率和所占的百分比,以确保测试内容的真实性和适切性,继而使用经典测量理论(CTT) 和项目反应理论(IRT)分析该测试的效度。该研究同时采用语言测试领域较为新颖的“以社团为基础的参与研究路径(CBPR)” 进行法律英语测试的研发,其创新点在于测试开发中所涉及的法律专家兼具研究对象和研究伙伴的双重身份。这与混合设计一起实现了研究中不同声音的交汇,使得研究呈现画面更加丰富、可信度更高。

Khalifa & Docherty(2016)采用会合式平行设计探讨某一国际测试的后效影响。该研究分三步进行。第一步同时采用问卷调查和测试等手段和开放式评论、半结构式访谈以及焦点小组讨论等手段分别收集、分析量化数据和质性数据; 第二步同时采用描述性统计分析和小组比较等手段和主题分析分别对上一步中的研究参与者作答分数和转写出的文本资料进行分析,以确定各项相关参数和主要关注点; 第三步整合上述数据,进行深入分析,以确定该测试对利益相关群体的后效影响。该研究发现表明,采用会合式平行设计进行测试后效研究要优于单一的量化研究或质性研究。

Youn(2013)采用探索式次序设计论证学术英语情境下基于任务的二语互动语用课程测试任务效度。该研究的主体部分分两个阶段进行。第一阶段,通过会话分析手段收集质性数据; 第二阶段,通过描述性数据统计、多面Rasch模型和相关分析收集量化数据。该研究有力的论证了新开发的测试任务的效度。该研究的另一新颖之处在于,主体研究完成之后,研究者还对主体研究的混合方法研究设计方案的质量进行论证。Youn(2015)的研究聚焦上述研究中评分量表的效度论证,亦采用探索式次序设计,分两个阶段进行。第一阶段,通过会话分析收集质性数据; 第二阶段,通过多面Rasch模型收集量化数据。该研究采用的混合方法研究设计为测试任务评分量表的效度论证提供有力的支撑。同时,Youn(2013; 2015)的研究为测试任务设计,特别是评价推理环节中测试任务评分量表效度论证的混合方法研究设计提供了参照样例。

黄永亮(2020)采用探索式次序设计验证研发中的“英语教师证书考试”批判性思维能力测试任务的效度。在质性研究阶段,依据受邀专家对测试任务内容和评分标准的反馈意见,判断测试任务内容的相关性、取样的充分性和评分标准的可靠性; 通过研究参与者的有声思维和访谈数据,揭示其作答过程能在何种程度上反映拟测的英语教师批判性思维能力; 通过研究参与者的文本分析,考察其作答的主题能在何种程度上反映评分量表的各个维度,其作答的内容能在何种程度上反映评分量表各维度的相关特征。在量化研究阶段,采用FACETS(3.81.2) 软件,就评分量表的维度设置、分数档划分、评分员一致性等方面,对五位评分员评阅的69位研究参与者有效作答分数进行多面Rasch模型分析。研究结果表明,该测试任务具有较高的效度。

上述混合方法研究设计成果,尤其是“名实兼备”型研究成果明确采用探索式次序设计、会合式次序设计等基础混合方法研究设计方案,依据清晰的混合方法研究设计流程进行数据的收集、分析与整合,可谓名至实归。当然,也有混合方法研究设计成果似乎不在上述三类范围之内(潘鸣威、吴金杰,2023) 。

3. 语言测试混合方法研究的质量评价

3.1 混合方法研究质量评价的标准、模型与指标

评价混合方法研究的质量涉及对传统研究路径的熟悉程度、研究数据的效度和信度、混合研究独有的数据分析技巧与传统研究路径中数据分析策略的结合程度等不同方面 (Tashakkori & Teddlie,1998)。具体而言,采用混合方法研究设计,研究者应同时熟悉质性研究和量化研究两种方法,能够在二者之间自如转换。在此基础上,研究者既要评估质性研究和量化研究所收集的研究数据的质量,又要评估据此做出的推断和结论的质量,也就是确保过程效度和设计效度。研究者还要将质性研究和量化研究路径中的数据分析技巧与混合方法研究自身的分析策略有效地结合起来。不难看出,这属于宏观的原则性的混合方法研究的质量评价标准。

Teddlie & Tashakkori(2003)提出推理质量(inference quality)这一混合方法研究质量的评价标准。推理质量是设计质量和解释严密度(interpretive rigor)的结合体,设计质量是指研究设计能否得到最佳的实施,解释严密度是指研究结果的可信度。他们设定了内在设计(within-design)一致性、 概念一致性、 样本解释一致性(interpretive agreement or consistency)和解释可区分性 (interpretive distinctiveness)等一套完备的推理质量评价标准。由此可见,推理质量兼顾混合方法研究设计方法论的评价标准和研究结果效度的评价标准,覆盖研究设计、研究过程和研究结果的全过程,具有一定的可操作性。他们还提出表示研究结果所具有的概化能力的推理迁移性(inference transferability)概念,包括样本迁移性、生态迁移性、时间迁移性和操作迁移性。这有助于研究者恰当地区分数据质量(data quality)和推理质量(Onwuegbuzie & Johnson,2006)。

在推理质量和推理迁移性等理论分析的基础上,Tashakkori & Teddlie( 2006) 进一步提出评价混合方法研究质量的综合质量模型。该模型由设计质量和解释严密度两部分构成。具体而言,设计质量的评价指标包括内在设计一致性、设计适宜度、设计忠实性和分析充分性; 解释严密度的评价指标则包括样本解释一致性(interpretive agreement)、解释可区分性、结果解释一致性(interpretive consistency)、理论一致性和综合效力(integrative efficacy)。综合质量模型沿用先前的设计质量和解释严密度两个核心术语的同时,部分调整半数以上二者所涵盖的关键指标的表述方式,细化个别评价指标,并增加新的评价指标。相较先前的理论分析,综合质量模型的评价指标显得更为全面、细致、系统,更具操作性。而Onwuegbuzie & Johnson(2006)则认为,评价混合方法研究质量的综合质量模型仍需进一步完善与拓展,因为该模型仅将推理视作最终的结果,而忽视了推理作为过程的存在。实际上,混合方法研究中的推理既是结果又是过程。

同时,综合质量模型亦未明确各类效度在混合方法研究评价过程中所发挥的作用。为此,他们提出正当性(legitimation)这一较为中性,没有明显的量化研究或质性研究倾向性的概念,作为混合方法研究的质量评价指标。正当性是指得出的研究发现和( 或) 做出的推理的可接受性、可信性、可靠性、可迁移性和( 或) 可证实性。正当性涵盖样本综合正当性、内在参与者—外在参与者正当性、弱点最小化正当性、序列正当性、推理转换正当性、范式混合正当性、等量正当性、多重效度(multiple validities)正当性和政治正当性等九种子类型。

正当性是评价混合方法研究质量的关键指标,是Tashakkori & Teddlie(2006)综合质量模型的有益补充。为保证正当性概念的可操作性,Onwuegbuzie & Johnson(2006)构建出可分别用于评价混合方法研究中的量化研究部分和质性研究部分所具有的正当性的相应模型。他们特别强调,对混合方法研究正当性的考察是一个过程,是一个兼跨逻辑分析、社会学、美学、主位、客位、政治学、伦理学等学科的多维考察过程。尽管如此,质性研究正当性模型虽相对全面,但绝非十全十美( Onwuegbuzie & Leech,2007)。

3.2 混合方法研究的统一效度验证框架

Dellinger & Leech(2007)积极评价上述综合质量模型和正当性概念及其理论解释,认为它们为混合方法研究的质量评估与推理提供了重要的评价标准,但它们仍然依循当下传统的效度评价标准,将混合方法研究中的量化研究和质性研究各自孤立地进行评价。

因此,混合方法研究的效度问题需进一步深入的探讨。于是,依据Messick(1995)统一效度观下的构念效度理论,紧扣混合方法研究过程中各类研究数据之间的张力,提出混合方法研究的统一效度验证框架。

统一效度验证框架由基础要素、推理一致性、应用/ 历史要素和后果要素等四部分构成。其中,基础要素反映出研究者对当下的研究构念和( 或) 研究的现象的先前的理解;推理一致性是指研究中所做的推理是否与特定的已知先前的理解、后续研究及相关理论相一致; 应用/ 历史要素指应用和使用的证据,是构念效度证据的来源; 后果要素取决于对最终研究发现、研究措施或研究推理所引发后果的社会接受度的判断。不难看出,统一效度验证框架四要素中既使用了先前评价标准中的推理一致性,又借用了应用/ 历史要素和后果要素,还创造了基础要素这一新术语。因此,混合方法研究的统一效度验证框架犹如一个大熔炉,紧扣统一效度观,试图囊括先前一切有益的研究成果。不仅如此,该框架也适用于量化研究和质性研究的效度验证,还有助于研究者整理研究思路,整理构念效度验证所需的证据,审视并评定所收集的构念效度证据,提高研究者自身使用研究发现的兴趣。统一效度验证框架试图囊括万象,包打一切,试图完美地解决混合研究、量化研究和质性研究的效度问题,其实际操作效果或许不言自明。套用Teddlie & Tashakkori(2003)对效度概念的评价,当效度概念试图包罗万象时,其最本质的意义便不复存在。统一效度验证框架也不例外。

此外,近两年Hirose & Creswell(2023)提出了评价混合方法研究质量六项核心标准,而Riazi & Farsani(2023)提出的混合方法研究质量和透明度的六端评价标准跟前者关系密切,袁雪寒和韩宝成(2023)则在上述两项研究的基础上提出了混合方法研究质量评价的六项关键指标,采用启发式提问的方式来释义。这些研究成果都是混合方法研究质量评价标准研究的有益尝试。

4. 结语

本文在简要考察混合方法研究设计类型的基础上,将语言测试领域中的混合方法研究成果分为“无名有实” “半名半实” “名实兼备”三种类型,亦发现当前语言测试的混合方法研究仍有相当大的潜力需要挖掘。探析混合方法研究质量的评价标准、模型与指标,有助于找寻当前语言测试混合方法研究存在问题的根源,进而助益提升语言测试混合方法研究的质量。未来语言测试混合方法研究质量评价标准的深入探讨,一旦达成共识,则语言测试混合方法研究的质量监控便有据可依,有助于进一步增强研究结论的说服力。混合方法研究的应用在推动语言测试学科发展的同时,也将助益我国全面建设外语能力测评体系。

(本文首次发表在《山东外语教学》2024年第4期)

来源:永大英语

相关推荐