Классическая теория тестирования

Классическая теория тестирования (КТТ) — это совокупность родственной психометрической теории, которая предсказывает результаты психологического тестирования, такие как сложность заданий или способности тестируемых. Это теория тестирования, основанная на идее о том, что наблюдаемая или полученная человеком оценка на тесте представляет собой сумму истинного балла (безошибочного балла) и балла ошибок. ^{[ 1 ]} Вообще говоря, цель классической теории тестов — понять и повысить надежность психологических тестов.

Классическую теорию тестирования можно рассматривать как примерно синоним теории истинного результата . Термин «классический» относится не только к хронологии этих моделей, но также контрастирует с более поздними психометрическими теориями, обычно называемыми теорией реакции на предмет , которые иногда носят название «современные», как в «современной теории скрытых черт».

Классическая теория тестирования в том виде, в каком мы ее знаем сегодня, была систематизирована Новиком (1966) и описана в таких классических текстах, как Лорд и Новик (1968) и Аллен и Йен (1979/2002). Приведенное ниже описание классической теории тестов следует за этими плодотворными публикациями.

История

Классическая теория тестирования родилась только после того, как были концептуализированы следующие три достижения или идеи:

1. признание наличия ошибок в измерениях,

2. представление об этой ошибке как о случайной величине,

3. концепция корреляции и способы ее индексации.

В 1904 году Чарльз Спирман отвечал за выяснение того, как исправить коэффициент корреляции затухания из-за ошибки измерения и как получить индекс надежности, необходимый для внесения поправки. ^{[ 2 ]} Некоторые считают, что открытие Спирмена положило начало классической теории тестов (Traub, 1997). Среди других, кто оказал влияние на структуру классической теории испытаний, - Джордж Удни Юл , Трумэн Ли Келли , Фриц Кудер и Мэрион Ричардсон, участвовавшие в создании формул Кудера-Ричардсона , Луи Гуттман и, совсем недавно, Мелвин Новик , не говоря уже о других. в течение следующей четверти века после первых результатов Спирмена.

Определения

Классическая теория тестирования предполагает, что каждый человек имеет истинный балл , T который был бы получен, если бы в измерениях не было ошибок. Истинный балл человека определяется как ожидаемый правильный результат за бесконечное количество независимых проверок. пользователи теста никогда не наблюдают за истинным баллом человека, а только за наблюдаемым баллом X. К сожалению , Предполагается, что наблюдаемая оценка = истинная оценка плюс некоторая ошибка :

                X         =       T      +    E
          observed score     true score     error

Классическая теория тестирования занимается отношениями между тремя переменными. $X$ , $T$ , и $E$ в населении. Эти отношения используются, чтобы что-то сказать о качестве результатов тестов. В этом отношении наиболее важным понятием является надежность . Надежность наблюдаемых результатов тестов $X$ , который обозначается как ${\rho _{XT}^{2}}$ , определяется как отношение истинной дисперсии баллов ${\sigma _{T}^{2}}$ к наблюдаемой дисперсии оценок ${\sigma _{X}^{2}}$ :

\rho _{XT}^{2}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}

Поскольку можно показать, что дисперсия наблюдаемых оценок равна сумме дисперсии истинных оценок и дисперсии оценок ошибок, это эквивалентно

\rho _{XT}^{2}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}={\frac {\sigma _{T}^{2}}{\sigma _{T}^{2}+\sigma _{E}^{2}}}

Это уравнение, которое формулирует соотношение сигнал/шум, имеет интуитивную привлекательность: надежность результатов тестов становится выше, когда доля дисперсии ошибок в результатах тестов становится меньше, и наоборот. Надежность равна доле дисперсии результатов тестов, которую мы могли бы объяснить, если бы знали истинные результаты. Квадратный корень из надежности представляет собой абсолютное значение корреляции между истинными и наблюдаемыми оценками.

Оценка тестов и результатов: надежность

Надежность не может быть оценена напрямую, поскольку для этого потребуется знать истинные оценки, что согласно классической теории испытаний невозможно. Однако оценки надежности можно получить различными способами. Одним из способов оценки надежности является построение так называемого параллельного теста . Фундаментальным свойством параллельного теста является то, что он дает одинаковый истинный результат и ту же наблюдаемую дисперсию результатов, что и исходный тест для каждого человека. Если у нас есть параллельные тесты x и x', то это означает, что

\mathbb {E} [X_{i}]=\mathbb {E} [X'_{i}]

и

\sigma _{E_{i}}^{2}=\sigma _{E'_{i}}^{2}

При этих предположениях из этого следует, что корреляция между результатами параллельных тестов равна надежности (доказательство см. в Lord & Novick, 1968, гл. 2).

\rho _{XX'}={\frac {\sigma _{XX'}}{\sigma _{X}\sigma _{X'}}}={\frac {\sigma _{T}^{2}}{\sigma _{X}^{2}}}=\rho _{XT}^{2}

Использование параллельных тестов для оценки надежности затруднительно, поскольку параллельные тесты очень трудно найти. На практике метод используется редко. Вместо этого исследователи используют меру внутренней согласованности, известную как критерий Кронбаха. ${\alpha }$ . Рассмотрим тест, состоящий из $k$ предметы $u_{j}$ , $j=1,\ldots ,k$ . Общий балл за тест определяется как сумма баллов по отдельным пунктам, так что для отдельных $i$

X_{i}=\sum _{j=1}^{k}U_{ij}

Тогда альфа Кронбаха равна

\alpha ={\frac {k}{k-1}}\left(1-{\frac {\sum _{j=1}^{k}\sigma _{U_{j}}^{2}}{\sigma _{X}^{2}}}\right)

Кронбаха ${\alpha }$ можно показать, что он обеспечивает нижнюю границу надежности при довольно мягких предположениях. ^{[ нужна ссылка ]} Таким образом, надежность результатов тестов в популяции всегда выше, чем значение критерия Кронбаха. ${\alpha }$ в этой популяции. Таким образом, этот метод эмпирически осуществим и, как следствие, очень популярен среди исследователей. Расчет Кронбаха ${\alpha }$ включен во многие стандартные статистические пакеты, такие как SPSS и SAS . ^{[ 3 ]}

Как было отмечено выше, все упражнения классической теории испытаний направлены на то, чтобы прийти к подходящему определению надежности. Предполагается, что надежность что-то говорит об общем качестве рассматриваемых тестов. Общая идея заключается в том, что чем выше надежность, тем лучше. Классическая теория испытаний не говорит, насколько высокой должна быть надежность. Слишком высокое значение для ${\alpha }$ , скажем, более 0,9 указывает на избыточность элементов. Для исследований личности рекомендуется значение около 0,8, а для индивидуального тестирования с высокими ставками желательно значение 0,9+. ^{[ 4 ]} Эти «критерии» не основаны на формальных аргументах, а скорее являются результатом общепринятых норм и профессиональной практики. Неясно, в какой степени их можно сопоставить с формальными принципами статистического вывода.

Оценка элементов: корреляция P и общего количества элементов.

Надежность представляет собой удобный показатель качества испытаний, выражаемый одним числом — надежность. Однако он не предоставляет никакой информации для оценки отдельных элементов. Анализ предметов в рамках классического подхода часто опирается на две статистики: P-значение (долю) и корреляцию общего количества предметов ( коэффициент корреляции между точками и бисериями ). Значение P представляет собой долю испытуемых, ответивших в указанном направлении, и обычно называется сложностью задания . Корреляция общего количества предметов обеспечивает индекс различения или дифференцирующей способности предмета и обычно называется распознаванием предмета . Кроме того, эта статистика рассчитывается для каждого ответа на часто используемый вопрос с множественным выбором и используется для оценки вопросов и диагностики возможных проблем, таких как сбивающий с толку отвлекающий фактор. Такой ценный анализ обеспечивается специально разработанным психометрическим программным обеспечением .

Альтернативы

Классическая теория тестов является влиятельной теорией результатов тестов в социальных науках. В психометрии эта теория была заменена более сложными моделями теории реакции на предмет (IRT) и теории обобщаемости (G-теории). Однако IRT не включен в стандартные статистические пакеты, такие как SPSS , но SAS может оценивать модели IRT через PROC IRT и PROC MCMC, а также существуют пакеты IRT для языка статистического программирования с открытым исходным кодом R (например, CTT). В то время как коммерческие пакеты обычно предоставляют оценки Кронбаха ${\alpha }$ специализированное психометрическое программное обеспечение Для IRT или G-теории может быть предпочтительнее . Однако общие статистические пакеты часто не обеспечивают полного классического анализа (метод Кронбаха). ${\alpha }$ это лишь одна из многих важных статистических данных), и во многих случаях также необходимо специализированное программное обеспечение для классического анализа.

Недостатки

Одним из наиболее важных или хорошо известных недостатков классической теории тестирования является то, что характеристики испытуемого и характеристики теста нельзя разделить: каждую можно интерпретировать только в контексте другой. Другой недостаток заключается в определении надежности, которое существует в классической теории тестов, в которой говорится, что надежность - это «корреляция между результатами тестов в параллельных формах теста». ^{[ 5 ]} Проблема в том, что существуют разные мнения о том, что такое параллельные тесты. Различные коэффициенты надежности дают либо оценки надежности с нижней границей, либо оценки надежности с неизвестными смещениями. Третий недостаток связан со стандартной ошибкой измерения. Проблема здесь в том, что согласно классической теории тестирования предполагается, что стандартная ошибка измерения одинакова для всех испытуемых. Однако, как объясняет Хэмблтон в своей книге, баллы по любому тесту являются неодинаково точными показателями для испытуемых с разными способностями, что делает неправдоподобным предположение о равных ошибках измерения для всех испытуемых (Hambleton, Swaminathan, Rogers, 1991, стр. 4). Четвертый и последний недостаток классической теории тестирования заключается в том, что она ориентирована на тесты, а не на задания. Другими словами, классическая теория тестирования не может помочь нам предсказать, насколько хорошо отдельный человек или даже группа испытуемых справятся с заданием теста. ^{[ 5 ]}

См. также

Примечания

^ Национальный совет по измерению в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorC . Архивировано 22 июля 2017 г. в Wayback Machine
^ Трауб, Р. (1997). Классическая теория тестирования в исторической перспективе. Измерение образования: проблемы и практика 16 (4), 8–14. doi:doi:10.1111/j.1745-3992.1997.tb00603.x
^ Пуй-Ва Лей и Цюн Ву (2007). «CTTITEM: макрос SAS и синтаксис SPSS для классического анализа элементов» . Методы исследования поведения . 39 (3): 527–530. дои : 10.3758/BF03193021 . ПМИД 17958163 .
^ Стрейнер, Д.Л. (2003). «Начиная с самого начала: введение в коэффициент альфа и внутреннюю согласованность». Журнал оценки личности . 80 (1): 99–103. дои : 10.1207/S15327752JPA8001_18 . hdl : 11655/5356 . ПМИД 12584072 . S2CID 3679277 .
^ Jump up to: ^а ^б Хэмблтон Р., Сваминатан Х., Роджерс Х. (1991). Основы теории ответов на вопросы . Ньюбери-Парк, Калифорния: Sage Publications, Inc.

Ссылки

Аллен, М.Дж., и Йен, В.М. (2002). Введение в теорию измерений. Лонг Гроув, Иллинойс: Waveland Press.
Новик, М.Р. (1966) Аксиомы и основные результаты классической теории тестов. Журнал математической психологии, том 3, выпуск 1, февраль 1966 г., страницы 1–18.
Лорд, Ф.М. и Новик, М.Р. (1968). Статистические теории результатов умственных тестов. Ридинг MA: Издательская компания Addison-Welsley

Дальнейшее чтение

Грегори, Роберт Дж. (2011). Психологическое тестирование: история, принципы и приложения (Шестое изд.). Бостон: Аллин и Бэкон. ISBN 978-0-205-78214-7 .
Хоган, Томас П.; Брук Кэннон (2007). Психологическое тестирование: практическое введение (второе изд.). Хобокен (Нью-Джерси): Джон Вили и сыновья. ISBN 978-0-471-73807-7 .

Внешние ссылки

[1] Национальный совет по измерению в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorC . Архивировано 22 июля 2017 г. в Wayback Machine

[2] Трауб, Р. (1997). Классическая теория тестирования в исторической перспективе. Измерение образования: проблемы и практика 16 (4), 8–14. doi:doi:10.1111/j.1745-3992.1997.tb00603.x

[Lei2007-3] Пуй-Ва Лей и Цюн Ву (2007). «CTTITEM: макрос SAS и синтаксис SPSS для классического анализа элементов» . Методы исследования поведения . 39 (3): 527–530. дои : 10.3758/BF03193021 . ПМИД 17958163 .

[4] Стрейнер, Д.Л. (2003). «Начиная с самого начала: введение в коэффициент альфа и внутреннюю согласованность». Журнал оценки личности . 80 (1): 99–103. дои : 10.1207/S15327752JPA8001_18 . hdl : 11655/5356 . ПМИД 12584072 . S2CID 3679277 .

[Hambleton,_R._1991-5] Jump up to: ^а ^б Хэмблтон Р., Сваминатан Х., Роджерс Х. (1991). Основы теории ответов на вопросы . Ньюбери-Парк, Калифорния: Sage Publications, Inc.

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]