经典测试理论(CTT)

经典测试理论(CTT) 是一个相关的身体 心理测验 预测心理结果的理论 测试 例如项目的难度或应试者的能力。它是一种测试理论,其基于以下观点:一个人在测试中观察或获得的分数是真实分数(无错误分数)和错误分数之和。[1] 一般而言,经典测试理论的目的是了解和改进测试方法。 可靠性 心理测试。

经典测试理论 可能被视为与…大致同义 真实分数理论。术语“古典”不仅指这些模型的时间顺序,而且还与较新的心理计量学理论(通常统称为“心理计量学”)形成对比。 项目反应理论,有时像“现代潜在特质理论”一样具有称谓“现代”。

我们今天所知的经典测试理论已由Novick(1966)编纂,并在Lord&Novick(1968)和Allen&Yen(1979/2002)等经典文献中得到了描述。这些经典出版物遵循以下经典测试理论的描述。

历史

经典测试理论是在以下三个成就或思想被概念化之后才诞生的:

1.认识到测量中存在错误,

2.将该错误视为随机变量的概念,

3.相关性的概念以及如何对其进行索引。

在1904年, 查尔斯·斯皮尔曼 负责弄清楚如何校正因测量误差引起的衰减的相关系数,以及如何获得进行校正所需的可靠性指标。[2] 某些人认为Spearman的发现是古典测验理论的开端(Traub,1997)。在古典测验理论的框架中具有影响力的其他人包括: 乔治·乌德尼·尤尔, 杜鲁门·李·凯利, 弗里茨·库德(Fritz Kuder) & 马里恩·理查森(Marion Richardson) 参与了 Kuder–Richardson公式, 路易斯·古特曼,以及最近的一次 梅尔文·诺维克(Melvin Novick),更不用说在Spearman最初发现之后的第二个世纪中的其他人了。

定义

经典测试理论假设每个人都有一个 真实分数,Ť,如果测量中没有错误,则将获得该值。一个人的真实分数定义为在无数次独立测试中预期的正确数字分数。不幸的是,测试用户从来没有观察到一个人的真实分数,只有一个 观察分数, X。假设 观察分数 = 真实分数 再加上一些 错误:

                X = T + E观察分数真实分数错误

经典测试理论关注三个变量之间的关系 , , 和 在人口中。这些关系用来说明考试成绩的质量。在这方面,最重要的概念是 可靠性。观察到的考试成绩的可靠性 ,表示为 ,定义为真实分数差异的比率 到观察到的分数方差 :

因为观察到的分数的方差可以显示为等于真实分数的方差和错误分数的方差之和,所以这等效于

这个公式表示信噪比,具有直观的吸引力:随着测试分数中误差方差的比例变低,测试分数的可靠性变得更高,反之亦然。可靠性等于测试分数中方差的比例,如果我们知道真实分数,则可以解释。可靠性的平方根是真实分数与观察分数之间的相关性的绝对值。

评估测试和分数:可靠性

 
 
 

可靠性无法直接估计,因为这将需要人们知道真实分数,而根据经典测试理论,这是不可能的。但是,可以通过各种方式获得可靠性的估计。估计可靠性的一种方法是构造一个所谓的 平行测试。并行测试的基本特性是,它对每个人都产生与原始测试相同的真实分数和相同的观察分数方差。如果我们有x和x’的并行测试,则意味着

在这些假设下,可以得出,平行考试成绩之间的相关性等于可靠性(有关证据,请参见Lord&Novick,1968,第2章)。

使用并行测试来估计可靠性很麻烦,因为很难进行并行测试。在实践中,很少使用该方法。相反,研究人员使用一种称为“内部一致性”的量度 克龙巴赫 。考虑一个包含以下内容的测试 项目 , 。总测试分数定义为单个项目分数的总和,因此对于单个

然后 克朗巴赫(Cronbach)的阿尔法 等于

克龙巴赫 在相当温和的假设下,可以证明为可靠性提供了一个下限。[需要引用] 因此,总体中考试分数的可靠性始终高于Cronbach’s 在那个人口中。因此,该方法在经验上是可行的,因此,它在研究人员中非常受欢迎。克朗巴赫方程的计算 包含在许多标准统计软件包中,例如 SPSSSAS.[3]

如上所述,完成了经典测试理论的整个练习,以得出对可靠性的适当定义。可靠性应该说出有关所测考试成绩的一般水平。一般的想法是,可靠性越高越好。经典测试理论没有说应该具有多高的可靠性。太高的价值 例如超过0.9,表示项目冗余。建议将.8左右用于个性研究,而将.9+推荐用于个人高风险测试。[4] 这些“标准”不是基于正式的论据,而是惯例和专业实践的结果。可以将它们映射到统计推断的正式原理的程度尚不清楚。

评估项目:P和项目总相关性

可靠性提供了一个简便的测试质量指标,即可靠性。但是,它不提供任何信息来评估单个项目。 项目分析 经典方法中的误差通常取决于两个统计量:P值(比例)和 项间总相关 (点-二元相关系数)。 P值代表在键控方向上做出回应的考生所占的比例,通常称为 项目难度。项与项之间的相关性提供了项的辨别力或区分能力的指标,通常称为 项目歧视。此外,这些统计信息是针对经常使用的每个响应进行计算的 多项选择 item,用于评估项目和诊断可能的问题,例如令人困惑的干扰物。这种有价值的分析是由专门设计的 心理测验软件.

备择方案

古典测验理论是社会科学中影响力测验成绩的理论。在 心理测验,该理论已被更复杂的模型所取代 项目反应理论 (IRT)和 概化理论 (G理论)。但是,IRT未包含在标准统计数据包中,例如 SPSS, 但 SAS 可以通过PROC IRT和PROC MCMC估算IRT模型,并且有 IRT套餐 用于开源统计编程语言 [R (例如CTT)。商业软件包通常提供Cronbach估计值 ,专业 心理测验软件 对于IRT或G理论可能是首选。但是,一般的统计数据包通常无法提供完整的经典分析(Cronbach’s 只是许多重要统计数据之一),而且在许多情况下,还需要用于经典分析的专用软件。

缺点

 
 
 

经典测试理论最重要或众所周知的缺点之一是,考生的特征和测试特征不能分开:两者只能在彼此的上下文中进行解释。另一个缺点在于经典测试理论中存在的可靠性定义,该定义指出可靠性是“并行测试形式的测试分数之间的相关性”。[5] 问题是什么是并行测试有不同的看法。各种可靠性系数提供可靠性的下界估计或具有未知偏差的可靠性估计。第三个缺点涉及标准的测量误差。这里的问题是,根据经典的测试理论,假定所有被测者的测量标准误差均相同。但是,正如汉布尔顿在他的书中所解释的那样,对于不同能力的考生而言,任何测验的得分都不是精确的衡量标准,因此,对于所有考生而言,均等的测量误差的假设是难以置信的(汉布尔顿,Swaminathan,Rogers,1991,第4页)。经典测试理论的第四个也是最后一个缺点是它是面向测试的,而不是面向项目的。换句话说,经典的考试理论无法帮助我们预测个人甚至是一组应试者在一个考试项目上的表现。[5]

参考

 
 
 
  • 艾伦(Allen,M.J.)和颜恩威(Yen,W.M.)(2002) 测量理论导论。 伊利诺伊州,朗格罗夫:Waveland出版社。
  • 诺里克·M.R。(1966) 经典测试理论的公理和主要结果 数学心理学杂志第3卷,第1期,1966年2月,第1-18页
  • 勋爵(Lord,F.M.)和诺维克(Novick,M.R.)(1968年)。 心理测验分数的统计理论。 阅读文学硕士:艾迪生-威尔斯利出版公司

进一步阅读

  • Gregory,Robert J.(2011年)。 心理测试:历史,原理和应用 (第六版)。波士顿:阿琳和培根。 书号 978-0-205-78214-7. 放置摘要 (2010年11月7日)。
  • 霍根(Thomas P.)布鲁克·坎农(2007)。 心理测试:实用入门 (第二版)。霍博肯(新泽西州):约翰·威利父子公司。 书号 978-0-471-73807-7. 放置摘要 (2010年11月21日)。