Компьютеризированный классификационный тест

Компьютеризированный классификационный тест ( CCT ) относится, как следует из названия, к системе аттестации , которая управляется компьютером с целью классификации экзаменуемых. Наиболее распространенный CCT — это зачетный тест, в ходе которого испытуемые классифицируются как «сдал» или «не прошел», но этот термин также включает тесты, которые делят испытуемых на более чем две категории. Хотя этот термин обычно можно рассматривать как относящийся ко всем компьютерным тестам для классификации, он обычно используется для обозначения тестов, которые проводятся в интерактивном режиме или имеют переменную длину, подобно компьютеризированному адаптивному тестированию (CAT). Как и CAT, CCT переменной длины могут достичь цели теста (точной классификации) с использованием лишь части количества элементов, используемых в обычном тесте фиксированной формы.

CCT требует нескольких компонентов:

Банк заданий , откалиброванный с помощью психометрической модели, выбранной разработчиком теста.
Отправная точка
выбора товара Алгоритм
Критерий прекращения и процедура подсчета баллов

Отправная точка не является предметом разногласий; исследования ОКТ в первую очередь исследуют применение различных методов для трех других компонентов. Примечание. Критерий завершения и процедура оценки различны в CAT, но одинаковы в CCT, поскольку тест завершается после проведения классификации. Таким образом, для разработки CAT необходимо указать пять компонентов.

Введение в CCT можно найти у Томпсона (2007). ^[1] и книга Паршалла, Спрея, Калона и Дэйви (2006). ^[2] Библиографию опубликованных исследований CCT можно найти ниже.

Как это работает [ править ]

CCT очень похож на CAT. Задания сдаются испытуемому по одному. После того, как испытуемый ответит на задание, компьютер оценивает его и определяет, может ли испытуемый уже быть классифицирован. Если они есть, тест прекращается и испытуемый классифицируется. Если нет, то вводится другой предмет. Этот процесс повторяется до тех пор, пока экзаменуемый не будет классифицирован или не будет достигнута другая конечная точка (все элементы в банке не будут обработаны или не будет достигнута максимальная длина теста).

Психометрическая модель [ править ]

Для психометрической модели CCT доступны два подхода: классическая теория тестов (CTT) и теория ответов на задания (IRT). Классическая теория тестирования предполагает модель состояния, поскольку она применяется путем определения параметров заданий для выборки испытуемых, отнесенных к каждой категории. Например, можно выбрать несколько сотен «мастеров» и несколько сотен «не мастеров», чтобы определить сложность и дискриминацию каждого из них, но для этого необходимо, чтобы вы были в состоянии легко идентифицировать отдельный набор людей, входящих в каждую группу. IRT, с другой стороны, предполагает модель черт; Знания или способности, измеряемые тестом, представляют собой континуум. Классификационные группы должны быть определены более или менее произвольно по всему континууму, например, с использованием отрезка для разграничения главных и неосновных, но спецификация параметров элемента предполагает наличие модели признаков.

У каждого есть преимущества и недостатки. СТТ предлагает большую концептуальную простоту. Что еще более важно, CTT требует меньшего числа испытуемых в выборке для калибровки параметров заданий, которые в конечном итоге будут использоваться при разработке CCT, что делает его полезным для небольших программ тестирования. См. Фрика (1992). ^[3] для описания CCT на основе CTT. Однако большинство CCT используют IRT. IRT предлагает большую специфичность, но наиболее важной причиной может быть то, что разработка CCT (и CAT) является дорогостоящей и, следовательно, скорее всего, выполняется с помощью крупной программы тестирования с обширными ресурсами. Такая программа, скорее всего, будет использовать IRT.

Начальная точка [ править ]

CCT должен иметь определенную отправную точку для реализации определенных алгоритмов. Если последовательный тест отношения вероятностей в качестве критерия завершения используется , он неявно предполагает начальное соотношение 1,0 (равная вероятность того, что экзаменуемый будет магистром или не магистром). Если критерием завершения является подход, основанный на доверительном интервале , необходимо указать указанную начальную точку теты. Обычно это 0,0, центр распределения , но он также может быть выбран случайным образом из определенного распределения, если известны параметры распределения испытуемого. Кроме того, может использоваться предыдущая информация об отдельном экзаменуемом, например, его балл, полученный при последней сдаче теста (в случае повторной сдачи).

Выбор товара [ править ]

В CCT задания выбираются для администрирования на протяжении всего теста, в отличие от традиционного метода раздачи фиксированного набора заданий всем экзаменуемым. Обычно это делается по отдельным заданиям, но это также можно делать и по группам заданий, известным как тестлеты (Leucht & Nungester, 1996; ^[4] Вос и Глас, 2000 г. ^[5]).

Методы выбора элементов делятся на две категории: на основе оценок и на основе оценок. Методы на основе Cutscore (также известные как последовательный отбор) максимизируют информацию, предоставляемую элементом в Cutscore или в Cutscore, если их несколько, независимо от способностей испытуемого. Методы, основанные на оценке (также известные как адаптивный отбор), максимизируют информацию о текущей оценке способностей испытуемого, независимо от местоположения контрольной точки. Оба работают эффективно, но эффективность частично зависит от используемого критерия завершения. Поскольку последовательный тест отношения вероятностей оценивает вероятности только вблизи контрольной точки, выбор элементов на основе контрольной точки является более подходящим. Поскольку критерий завершения доверительного интервала сосредоточен вокруг оценки способностей испытуемого, выбор заданий на основе оценок является более подходящим. Это связано с тем, что тест выполнит классификацию, когда доверительный интервал достаточно мал, чтобы полностью находиться выше или ниже порогового значения (см. ниже). Доверительный интервал будет меньше, когда стандартная ошибка измерения меньше, а стандартная ошибка измерения будет меньше, когда на тета-уровне испытуемого имеется больше информации.

Критерий прекращения [ править ]

Для CCT обычно используются три критерия прекращения действия. Методы байесовской теории принятия решений обеспечивают большую гибкость, предоставляя бесконечный выбор структур потерь/полезности и соображений оценки, но также вносят больший произвол. Подход , основанный на доверительном интервале, вычисляет доверительный интервал вокруг текущей оценки теты испытуемого в каждой точке теста и классифицирует испытуемого, когда интервал полностью попадает в область тета, определяющую классификацию. Первоначально это было известно как адаптивное тестирование усвоения (Kingsbury & Weiss, 1983), но оно не обязательно требует адаптивного выбора заданий и не ограничивается ситуацией тестирования усвоения с двумя классификациями. Последовательный тест отношения вероятностей (Reckase, 1983) определяет проблему классификации как проверку гипотезы о том, что тэта испытуемого равна указанной точке выше минимального показателя или указанной точке ниже минимального показателя.

Ссылки [ править ]

^ Томпсон, Северная Каролина (2007). Руководство для практикующего специалиста по компьютеризированному классификационному тестированию переменной длины. Практическая оценка исследований и оценок, 12(1). [1]
^ Паршалл, К.Г., Спрей, Дж.А., Калон, Дж.К., и Дэйви, Т. (2006). Практические соображения по компьютерному тестированию. Нью-Йорк: Спрингер.
^ Фрик, Т. (1992). Компьютеризированные адаптивные зачетные тесты как экспертные системы. Журнал образовательных компьютерных исследований, 8 (2), 187–213.
^ Люхт, Р.М., и Нангестер, Р.Дж. (1998). Некоторые практические примеры компьютерно-адаптивного последовательного тестирования. Журнал образовательных измерений, 35, 229–249.
^ Вос, HJ и Глас, CAW (2000). Адаптивное зачетное тестирование на основе тестлетов. Ван дер Линден, У.Дж., и Глас, CAW (ред.) Компьютеризированное адаптивное тестирование: теория и практика.

исследований Библиография CCT

Армитидж, П. (1950). Последовательный анализ с более чем двумя альтернативными гипотезами и его связь с анализом дискриминантной функции. Журнал Королевского статистического общества , 12, 137–144.
Браун Х., Бежар И.И. и Уильямсон Д.М. (2006). Методы автоматической оценки на основе правил: применение в контексте лицензирования. Уильямсон Д.М., Мислеви Р.Дж. и Бежар И.И. (ред.) Автоматизированная оценка сложных задач в компьютерном тестировании. Махва, Нью-Джерси: Эрлбаум.
Додд, Б.Г., Де Айала, Р.Дж., и Кох, В.Р. (1995). Компьютеризированное адаптивное тестирование с политомическими заданиями. Прикладные психологические измерения, 19, 5-22.
Эгген, TJHM (1999). Выбор элементов в адаптивном тестировании с помощью последовательного теста отношения вероятностей. Прикладные психологические измерения, 23, 249–261.
Эгген, TJH M и Стрэтманс, GJJM (2000). Компьютеризированное адаптивное тестирование для разделения испытуемых на три категории. Образовательные и психологические измерения, 60, 713–734.
Эпштейн К.И. и Кнерр К.С. (1977). Применение процедур последовательного тестирования к тестированию производительности. Доклад, представленный на конференции по компьютеризированному адаптивному тестированию 1977 года, Миннеаполис, Миннесота.
Фергюсон, РЛ (1969). Разработка, внедрение и оценка компьютерного разветвленного теста для программы индивидуально предписанного обучения. Неопубликованная докторская диссертация, Питтсбургский университет.
Фрик, Т.В. (1989). Байесовская адаптация во время компьютерных тестов и упражнений под управлением компьютера. Журнал образовательных компьютерных исследований, 5, 89–114.
Фрик, Т.В. (1990). Сравнение трех моделей принятия решений для адаптации продолжительности компьютерных зачетных тестов. Журнал образовательных компьютерных исследований, 6, 479–513.
Фрик, Т.В. (1992). Компьютеризированные адаптивные зачетные тесты как экспертные системы. Журнал образовательных компьютерных исследований, 8, 187–213.
Хуанг, К.-Ю., Калон, Д.К., Лин, К.-Дж., и Спрей, Дж. (2000). Оценка параметров предметов на основе классических индексов для разработки пула предметов с помощью компьютеризированного классификационного теста. (Отчет об исследовании 2000–4). Айова-Сити, Айова: ACT, Inc.
Джейкобс-Кассуто, MS (2005). Сравнение адаптивного зачетного тестирования с использованием тестлетов

С 3-параметрической логистической моделью. Неопубликованная докторская диссертация, Университет Миннесоты, Миннеаполис, Миннесота.

Цзяо Х. и Лау AC (2003). Эффекты несоответствия модели в компьютерном классификационном тесте. Документ, представленный на ежегодном собрании Национального совета по измерениям в образовании, Чикаго, Иллинойс, апрель 2003 г.
Цзяо Х., Ван С. и Лау, Калифорния (2004). Исследование двух комбинированных процедур SPRT для принятия решений по классификации по трем категориям в компьютеризированном классификационном тесте. Документ представлен на ежегодном собрании Американской ассоциации исследований в области образования, Сан-Антонио, апрель 2004 г.
Калон, Дж. К., и Спрей, Дж. А. (1999). Влияние неправильной спецификации модели на решения по классификации, принятые с помощью компьютерного теста. Журнал образовательных измерений, 36, 47–59.
Кингсбери, Г.Г., и Вайс, ди-джей (1979). Стратегия адаптивного тестирования для принятия решений о мастерстве. Отчет об исследовании 79–05. Миннеаполис: Университет Миннесоты, Лаборатория психометрических методов.
Кингсбери, Г.Г., и Вайс, ди-джей (1983). Сравнение адаптивного зачетного тестирования на основе IRT и процедуры последовательного зачетного тестирования. В книге DJ Weiss (ред.), «Новые горизонты тестирования: теория скрытых черт и компьютеризированное адаптивное тестирование» (стр. 237–254). Нью-Йорк: Академическая пресса.
Лау, Калифорния (1996). Робастность процедуры освоения одномерного компьютеризированного тестирования с данными многомерного тестирования. Неопубликованная докторская диссертация, Университет Айовы, Айова-Сити, Айова.
Лау, Калифорния, и Ван, Т. (1998). Сравнение и объединение дихотомических и политомических элементов с помощью процедуры SPRT в компьютеризированном классификационном тестировании. Доклад представлен на ежегодном собрании Американской ассоциации исследований в области образования в Сан-Диего.
Лау, Калифорния, и Ван, Т. (1999). Компьютерное классификационное тестирование при практических ограничениях с использованием политомической модели. Доклад представлен на ежегодном собрании Американской ассоциации исследований в области образования, Монреаль, Канада.
Лау, Калифорния, и Ван, Т. (2000). Новая процедура выбора заданий смешанного типа в компьютерном классификационном тестировании. Доклад представлен на ежегодном собрании Американской ассоциации исследований в области образования, Новый Орлеан, Луизиана.
Льюис К. и Шихан К. (1990). Использование байесовской теории принятия решений для разработки компьютеризированного зачетного теста. Прикладные психологические измерения, 14, 367–386.
Лин, К.-Дж. И Спрей, Дж. А. (2000). Влияние критериев выбора элементов на классификационное тестирование с помощью последовательного теста отношения вероятностей. (Отчет об исследовании 2000–8). Айова-Сити, Айова: ACT, Inc.
Линн Р.Л., Рок Д.А. и Клири Т.А. (1972). Последовательное тестирование дихотомических решений. Образовательные и психологические измерения, 32, 85–95.
Люхт, Р.М. (1996). Многомерное компьютеризированное адаптивное тестирование в контексте сертификации или лицензирования. Прикладные психологические измерения, 20, 389–404.
Рекейс, доктор медицины (1983). Процедура принятия решения с использованием специализированного тестирования. В книге DJ Weiss (ред.), «Новые горизонты тестирования: теория скрытых черт и компьютеризированное адаптивное тестирование» (стр. 237–254). Нью-Йорк: Академическая пресса.
Руднер, LM (2002). Исследование процедур адаптивного тестирования теории принятия решений. Доклад, представленный на ежегодном собрании Американской ассоциации исследований в области образования, 1–5 апреля 2002 г., Новый Орлеан, Луизиана.
Шихан К. и Льюис К. (1992). Компьютеризированное зачетное тестирование с неэквивалентными тестами. Прикладные психологические измерения, 16, 65–76.
Спрей, JA (1993). Классификация по нескольким категориям с использованием последовательного теста отношения вероятностей (отчет об исследовании 93–7). Айова-Сити, Айова: ACT, Inc.
Спрей Дж. А., Абдель-Фаттах А. А., Хуанг К. и Лау, Калифорния (1997). Одномерные аппроксимации для компьютеризированного теста, когда пул заданий и скрытое пространство являются многомерными (Отчет об исследовании 97–5). Айова-Сити, Айова: ACT, Inc.
Спрей, Дж. А., и Рекес, доктор медицины (1987). Влияние ошибки оценки параметров предмета на решения, принятые с использованием последовательного теста отношения вероятностей (отчет об исследовании 87–17). Айова-Сити, Айова: ACT, Inc.
Спрей, Дж. А., и Рекес, доктор медицины (1994). Выбор тестовых заданий для принятия решения с помощью компьютеризированного адаптивного теста. Документ, представленный на ежегодном собрании Национального совета по измерениям в образовании (Новый Орлеан, Луизиана, 5–7 апреля 1994 г.).
Спрей, Дж. А., и Рекес, доктор медицины (1996). Сравнение SPRT и последовательных процедур Байеса для классификации испытуемых на две категории с помощью компьютеризированного теста. Журнал образовательной и поведенческой статистики, 21, 405–414.
Томпсон, Н.А. (2006). Компьютеризированное классификационное тестирование переменной длины с теорией ответов на задания. Обзор экзамена CLEAR, 17 (2).
Вос, HJ (1998). Оптимальные последовательные правила для компьютерного обучения. Журнал образовательных компьютерных исследований, 19, 133–154.
Вос, HJ (1999). Применение байесовской теории принятия решений к последовательному зачетному тестированию. Журнал образовательной и поведенческой статистики, 24, 271–292.
Уолд, А. (1947). Последовательный анализ. Нью-Йорк: Уайли.
Вайс, DJ, и Кингсбери, GG (1984). Применение компьютеризированного адаптивного тестирования к образовательным задачам. Журнал образовательных измерений, 21, 361–375.
Вайсман, А. (2004). Взаимный выбор информационных элементов в многокатегорийной классификации CAT. Документ, представленный на ежегодном собрании Национального совета по измерениям в образовании, Сан-Диего, Калифорния.
Вайцман, Р.А. (1982a). Последовательное тестирование на выбор. Прикладные психологические измерения, 6, 337–351.
Вайцман, Р.А. (1982b). Использование последовательного тестирования для предварительного отбора потенциальных кандидатов на военную службу. В DJ Weiss (ред.), Материалы конференции по компьютеризированному адаптивному тестированию 1982 года. Миннеаполис, Миннесота: Университет Миннесоты, факультет психологии, программа психометрических методов, 1982.

Внешние ссылки [ править ]

Теория принятия решений по измерениям Лоуренса Руднера
CAT Central Дэвида Дж. Вайса

[1] Томпсон, Северная Каролина (2007). Руководство для практикующего специалиста по компьютеризированному классификационному тестированию переменной длины. Практическая оценка исследований и оценок, 12(1). [1]

[2] Паршалл, К.Г., Спрей, Дж.А., Калон, Дж.К., и Дэйви, Т. (2006). Практические соображения по компьютерному тестированию. Нью-Йорк: Спрингер.

[3] Фрик, Т. (1992). Компьютеризированные адаптивные зачетные тесты как экспертные системы. Журнал образовательных компьютерных исследований, 8 (2), 187–213.

[4] Люхт, Р.М., и Нангестер, Р.Дж. (1998). Некоторые практические примеры компьютерно-адаптивного последовательного тестирования. Журнал образовательных измерений, 35, 229–249.

[5] Вос, HJ и Глас, CAW (2000). Адаптивное зачетное тестирование на основе тестлетов. Ван дер Линден, У.Дж., и Глас, CAW (ред.) Компьютеризированное адаптивное тестирование: теория и практика.

[1]

[2]

[3]

[4]

[5]