Валидность теста
Валидность теста – это степень, в которой тест (например, химический , физический или учебный тест ) точно измеряет то, что он должен измерять . В области психологического тестирования и образовательного тестирования «валидность означает степень, в которой доказательства и теория поддерживают интерпретации результатов тестов, вытекающие из предлагаемого использования тестов». [1] Хотя классические модели делили концепцию на различные «действительности» (такие как достоверность содержания , достоверность критерия и достоверность конструкции ), [2] В настоящее время преобладает мнение, что валидность представляет собой единую унитарную конструкцию. [3]
Валидность обычно считается наиболее важным вопросом в психологическом и образовательном тестировании. [4] потому что это касается значения, придаваемого результатам теста. [3] Хотя во многих учебниках валидность представлена как статическая конструкция, [5] различные модели валидности развивались со времени первых опубликованных рекомендаций по построению психологических и образовательных тестов. [6] Эти модели можно разделить на две основные группы: классические модели, которые включают несколько типов валидности, и современные модели, которые представляют валидность как единую конструкцию. Современные модели реорганизуют классические «валидности» в «аспекты» валидности. [3] или «типы» доказательств, подтверждающих достоверность [1]
Валидность теста часто путают с надежностью , которая относится к согласованности меры. Адекватная надежность является предпосылкой валидности, но высокая надежность никоим образом не гарантирует валидность меры.
Историческая справка
[ редактировать ]Хотя психологам и педагогам было известно о нескольких аспектах валидности до Второй мировой войны, их методы установления валидности обычно ограничивались корреляцией результатов тестов с каким-либо известным критерием. [7] Под руководством Ли Кронбаха в 1954 году были разработаны Технические рекомендации по психологическим тестам и диагностическим методам. [6] попытались прояснить и расширить сферу валидности, разделив ее на четыре части: (а) параллельная валидность , (б) прогностическая валидность , (в) содержательная валидность и (г) конструктная валидность . Последующая публикация Кронбаха и Миля [8] сгруппировали прогностическую и параллельную достоверность в «ориентацию на критерии», которая в конечном итоге стала критериальной достоверностью .
В течение следующих четырех десятилетий многие теоретики, включая самого Кронбаха, [9] выразили свое недовольство этой моделью действительности «три в одном». [10] [11] [12] Их аргументы завершились статьей Сэмюэля Мессика 1995 года, в которой валидность описывалась как единая конструкция, состоящая из шести «аспектов». [3] По его мнению, различные выводы, сделанные на основе результатов тестов, могут требовать разных типов доказательств, но не разной достоверности.
1999 г. Стандарты образовательного и психологического тестирования [1] в значительной степени систематизировал модель Мессика. Они описывают пять типов доказательств, подтверждающих достоверность, которые включают в себя каждый из аспектов Мессика и не упоминают содержание, критерии и конструктную достоверность классических моделей.
Процесс проверки
[ редактировать ]Согласно Стандартам 1999 года , [1] валидация — это процесс сбора доказательств, обеспечивающих «надежную научную основу» для интерпретации результатов, предложенных разработчиком теста и/или пользователем теста. Таким образом, валидация начинается с структуры, которая определяет объем и аспекты (в случае многомерных шкал) предлагаемой интерпретации. Структура также включает рациональное обоснование, связывающее интерпретацию с рассматриваемым тестом.
Затем исследователи валидности перечисляют ряд предположений, которые должны быть выполнены, чтобы интерпретация была достоверной. Или, наоборот, они могут составить список вопросов, которые могут поставить под угрозу достоверность интерпретаций. В любом случае исследователи продолжают собирать доказательства – будь то оригинальные эмпирические исследования, метаанализ или обзор существующей литературы или логический анализ проблем – чтобы поддержать или подвергнуть сомнению положения интерпретации (или угрозы достоверности интерпретации). . Особое внимание уделяется качеству, а не количеству доказательств.
Единственная интерпретация любого результата теста может потребовать, чтобы несколько утверждений были истинными (или могут быть подвергнуты сомнению любым из множества угроз его достоверности). Веские доказательства в поддержку одного утверждения не уменьшают требования к поддержке других предположений.
Доказательства, подтверждающие (или подвергающие сомнению) обоснованность интерпретации, можно отнести к одной из пяти категорий:
- Доказательства, основанные на содержании теста
- Доказательства, основанные на процессах реагирования
- Доказательства, основанные на внутренней структуре
- Доказательства, основанные на отношениях к другим переменным
- Доказательства, основанные на последствиях тестирования
Методы сбора каждого типа доказательств следует использовать только в том случае, если они дают информацию, которая поддержит или подвергнет сомнению предположения, необходимые для рассматриваемой интерпретации.
Каждое доказательство в конечном итоге интегрируется в аргумент достоверности. Аргумент может потребовать пересмотра теста, протокола его проведения или теоретических конструкций, лежащих в основе интерпретаций. Если тест и/или интерпретация результатов теста каким-либо образом пересматриваются, новый процесс проверки должен собрать доказательства в поддержку новой версии.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Jump up to: а б с д Американская ассоциация исследований в области образования, Американская психологическая ассоциация и Национальный совет по измерениям в образовании. (1999) Стандарты образовательного и психологического тестирования . Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.
- ^ Гион, РМ (1980). О тринитарных доктринах справедливости. Профессиональная психология, 11 , 385–398.
- ^ Jump up to: а б с д Мессик, С. (1995). Валидность психологической оценки: проверка выводов на основе ответов и действий людей как научное исследование значения оценок. Американский психолог, 50 , 741–749.
- ^ Пофэм, WJ (2008). Все об оценивании / Непонятый Грааль. Образовательное лидерство, 66 (1), 82-83.
- ^ Нитко, Дж. Дж., Брукхарт, С. М. (2004). Учебная оценка учащихся . Река Аппер-Сэддл, Нью-Джерси: Меррилл-Прентис Холл.
- ^ Jump up to: а б Американская психологическая ассоциация, Американская ассоциация исследований в области образования и Национальный совет по измерениям в образовании. (1954). Технические рекомендации по психологическим тестам и диагностическим методикам . Вашингтон, округ Колумбия: Ассоциация.
- ^ Ангофф, WH (1988). Действительность: развивающаяся концепция. В Х. Вайнере и Х. Брауне (ред.), Проверка достоверности (стр. 19–32). Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
- ^ Кронбах, Л.Дж., и Миль, Ч.П. (1955). Конструируйте валидность в психологических тестах. Психологический бюллетень, 52 , 281–302.
- ^ Кронбах, ЖЖ (1969). Валидация образовательных мер. Материалы приглашенной конференции по проблемам тестирования 1969 года. Принстон , Нью-Джерси: Служба образовательного тестирования, 35–52.
- ^ Левинджер, Дж. (1957). Объективные тесты как инструменты психологической теории. Психологические отчеты, 3 , 634–694.
- ^ Тенопир, ML (1977). Путаница содержания и конструкции. Психология персонала, 30 , 47-54.
- ^ Гион, РМ (1977). Достоверность содержания – источник моего недовольства. Прикладные психологические измерения, 1 , 1-10.