Jump to content

Компьютеризированное адаптивное тестирование

Компьютеризированное адаптивное тестирование ( CAT ) — это форма компьютерного теста, который адаптируется к уровню способностей испытуемого. По этой причине его также называют специализированным тестированием . Другими словами, это форма компьютерного теста , в котором следующий элемент или набор вопросов, выбранных для выполнения, зависит от правильности ответов тестируемого на самые последние заданные вопросы. [1]

Описание

[ редактировать ]

CAT последовательно выбирает вопросы с целью максимизации точности экзамена на основе того, что известно об экзаменуемом из предыдущих вопросов. [2] С точки зрения экзаменуемого, сложность экзамена, кажется, адаптируется к его уровню способностей. Например, если экзаменуемый хорошо справился с заданием средней сложности, ему будет предложен более сложный вопрос. Или, если они справятся плохо, им зададут более простой вопрос. По сравнению со статическими тестами, с которыми сталкивался почти каждый, с фиксированным набором заданий, выдаваемым всем испытуемым, компьютерно-адаптивные тесты требуют меньшего количества тестовых заданий для получения одинаково точных результатов. [2]

Базовый метод компьютерно-адаптивного тестирования представляет собой итерационный алгоритм , состоящий из следующих шагов: [3]

  1. В пуле доступных предметов производится поиск оптимального предмета, исходя из текущей оценки способностей испытуемого.
  2. Выбранный вопрос предъявляется испытуемому, который затем отвечает на него правильно или неправильно.
  3. Оценка способностей обновляется на основе всех предыдущих ответов.
  4. Шаги 1–3 повторяются до тех пор, пока не будет выполнен критерий завершения.

До введения первого задания об испытуемом ничего не известно, поэтому алгоритм обычно начинается с выбора задания средней или средне-легкой сложности в качестве первого задания. [ нужна ссылка ]

В результате адаптивного администрирования разные испытуемые получают совершенно разные тесты. [4] Хотя испытуемым обычно назначаются разные тесты, их оценки способностей сопоставимы (т.е. как если бы они проходили один и тот же тест, как это обычно бывает в тестах, разработанных с использованием классической теории тестов). Психометрическая технология, позволяющая рассчитывать справедливые баллы по различным наборам заданий, — это теория ответов на задания (IRT). IRT также является предпочтительным методом выбора оптимальных предметов, которые обычно выбираются на основе информации , а не сложности как таковой. [3]

Соответствующая методология, называемая многоэтапным тестированием (MST) или CAST, используется при сдаче единого экзамена на получение диплома сертифицированного бухгалтера . MST позволяет избежать или уменьшить некоторые недостатки CAT, описанные ниже. [5]

CAT существует с 1970-х годов, и в настоящее время существует множество оценок , в которых она используется.

Кроме того, список активных экзаменов CAT можно найти в Международной ассоциации компьютерного адаптивного тестирования. [7] вместе со списком текущих исследовательских программ CAT и почти полной библиографией всех опубликованных исследований CAT.

Преимущества

[ редактировать ]

Адаптивные тесты могут обеспечить одинаково точные оценки для большинства тестируемых. [3] Напротив, стандартные фиксированные тесты почти всегда обеспечивают наилучшую точность для тестируемых со средними способностями и все более низкую точность для тестируемых с более экстремальными результатами тестов. [ нужна ссылка ]

Адаптивный тест обычно можно сократить на 50 %, сохраняя при этом более высокий уровень точности, чем фиксированная версия. [2] Это приводит к экономии времени тестируемого. Экзаменуемые не тратят время на попытки выполнить задания, которые являются слишком сложными или тривиально простыми. Кроме того, организация тестирования получает выгоду от экономии времени; стоимость времени пребывания экзаменуемого существенно снижается. Однако, поскольку разработка CAT требует гораздо больших затрат, чем стандартный тест фиксированной формы, для того, чтобы программа CAT-тестирования была финансово плодотворной, необходима большая популяция. [ нужна ссылка ]

Большие целевые группы населения обычно могут быть представлены в научных и исследовательских областях. CAT-тестирование в этих аспектах может использоваться для выявления ранних проявлений инвалидности или заболеваний. Рост компьютерного тестирования в этих областях значительно увеличился за последние 10 лет. Компьютерная томография, которая раньше не принималась в медицинских учреждениях и лабораториях, теперь поощряется в рамках диагностики. [ нужна ссылка ]

Как и любой компьютерный тест , адаптивные тесты могут показывать результаты сразу после тестирования. [ нужна ссылка ]

Адаптивное тестирование, в зависимости от алгоритма выбора заданий , может снизить воздействие некоторых заданий, поскольку испытуемые обычно получают разные наборы заданий, а не все население получает один набор. Однако это может увеличить воздействие на других (а именно на задания среднего или среднего/легкого уровня, предъявляемые большинству испытуемых в начале теста). [3]

Недостатки

[ редактировать ]

Первая проблема, возникающая в CAT, — это калибровка пула элементов. Чтобы смоделировать характеристики элементов (например, чтобы выбрать оптимальный элемент), все элементы теста должны быть предварительно введены в значительную выборку, а затем проанализированы. Для этого новые задания должны быть смешаны с рабочими элементами экзамена (ответы записываются, но не влияют на баллы тестируемых), что называется «пилотным тестированием», «предварительным тестированием» или «посевом». . [3] Это создает проблемы логистики, этики и безопасности. Например, невозможно провести оперативное адаптивное испытание с совершенно новыми, ранее не существовавшими объектами; [8] все элементы должны быть предварительно протестированы на достаточно большой выборке, чтобы получить стабильную статистику по элементам. Эта выборка может достигать 1000 испытуемых. [8] Каждая программа должна решить, какой процент теста может состоять из неоцененных заданий пилотного теста. [ нужна ссылка ]

Хотя адаптивные тесты имеют алгоритмы контроля воздействия , позволяющие предотвратить чрезмерное использование некоторых элементов, [3] воздействие, обусловленное способностями, часто не контролируется и может легко приблизиться к 1. То есть некоторые элементы часто становятся очень распространенными в тестах для людей с одинаковыми способностями. Это серьезная проблема безопасности, поскольку группы, совместно использующие элементы, вполне могут иметь одинаковый уровень функциональных возможностей. Фактически, полностью рандомизированное обследование является наиболее безопасным (но и наименее эффективным). [ нужна ссылка ]

Просмотр прошлых элементов обычно запрещен. Адаптивные тесты, как правило, дают более простые задания после того, как человек отвечает неправильно. Предположительно, проницательный экзаменуемый мог бы использовать такие подсказки, чтобы обнаружить неправильные ответы и исправить их. Или можно научить тестируемых сознательно выбирать неправильные ответы, что сделает тест более простым. Обманув адаптивный тест и построив максимально простой экзамен, они смогли затем просмотреть задания и ответить на них правильно, возможно, получив очень высокий балл. Тестируемые часто жалуются на невозможность проверки. [9]

Из-за сложности разработка CAT имеет ряд предпосылок. [10] Должны присутствовать большие размеры выборки (обычно сотни испытуемых), необходимые для калибровки IRT. Если новый элемент должен быть выбран мгновенно, элементы должны подсчитываться в реальном времени. Психометристы, имеющие опыт калибровки IRT и исследований CAT-моделирования, необходимы для предоставления подтверждающей документации. Наконец, должна быть доступна система программного обеспечения, поддерживающая настоящую CAT на основе IRT. [ нужна ссылка ]

В CAT с ограничением по времени экзаменуемый не может точно спланировать время, которое он может потратить на каждый элемент теста, и определить, находится ли он в темпе для завершения ограниченного по времени раздела теста. Таким образом, экзаменуемые могут быть наказаны за то, что они потратили слишком много времени на сложный вопрос, который представлен в начале раздела, а затем не смогли ответить на достаточное количество вопросов, чтобы точно оценить свои знания в областях, которые остались непроверенными по истечении времени. [11] В то время как тесты CAT без ограничения по времени являются отличными инструментами для формативного оценивания, которое определяет последующее обучение, тесты CAT с ограничением по времени не подходят для итогового оценивания с высокими ставками, используемого для измерения способностей к работе и образовательным программам. [ нужна ссылка ]

Компоненты

[ редактировать ]

Создание CAT состоит из пяти технических компонентов (следующее адаптировано из Weiss & Kingsbury, 1984). [2] ). В этот список не включены практические вопросы, такие как предварительное тестирование элементов или выпуск в полевых условиях.

  1. Калиброванный пул предметов
  2. Начальная точка или начальный уровень
  3. выбора товара Алгоритм
  4. Процедура подсчета баллов
  5. Критерий прекращения

Калиброванный пул предметов

[ редактировать ]

Для CAT должен быть доступен набор предметов, из которых он может выбирать. [2] Такие элементы могут создаваться традиционным способом (т. е. вручную) или посредством автоматической генерации элементов . Пул должен быть откалиброван с помощью психометрической модели, которая используется в качестве основы для остальных четырех компонентов. Обычно теория реакции на предмет . в качестве психометрической модели используется [2] Одна из причин популярности теории реагирования на предметы заключается в том, что она относит людей и предметы к одной и той же метрике (обозначаемой греческой буквой тета), что полезно при решении проблем с выбором предметов (см. ниже). [ нужна ссылка ]

Начальная точка

[ редактировать ]

В CAT элементы выбираются на основе результатов экзаменуемого до определенного момента теста. Однако CAT, очевидно, не может дать какую-либо конкретную оценку способностей испытуемого, если ему не были назначены никакие задания. Поэтому необходима другая первоначальная оценка способностей испытуемого. Если известна некоторая предыдущая информация об экзаменуемом, ее можно использовать, [2] но часто CAT просто предполагает, что экзаменуемый обладает средними способностями – следовательно, первое задание часто имеет средний уровень сложности. [ нужна ссылка ]

Алгоритм выбора товара

[ редактировать ]

Как упоминалось ранее, теория ответов на задания ставит испытуемых и задания на один и тот же показатель. Таким образом, если CAT имеет оценку способностей экзаменуемого, он может выбрать элемент, наиболее соответствующий этой оценке. [8] Технически это делается путем выбора элемента с наибольшей информацией на данный момент. [2] Информация является функцией параметра дискриминации предмета, а также параметра условной дисперсии и псевдоугадывания (если используется). [ нужна ссылка ]

Процедура подсчета баллов

[ редактировать ]

После сдачи задания CAT обновляет оценку уровня способностей экзаменуемого. Если испытуемый ответил на задание правильно, CAT, скорее всего, оценит его способности несколько выше, и наоборот. Это делается с помощью функции ответа на задание из теории ответа на задание для получения функции правдоподобия способностей испытуемого. Два метода для этого называются оценкой максимального правдоподобия и байесовской оценкой . Последний предполагает априорное распределение способностей испытуемого и имеет две обычно используемые оценки: апостериорное ожидание и апостериорное максимальное ожидание . Максимальное правдоподобие эквивалентно апостериорной оценке Байеса, если равномерное ( f (x) = 1) априорное значение. предполагается [8] Максимальное правдоподобие является асимптотически несмещенным, но не может обеспечить тета-оценку для несмешанного (все правильные или неправильные) вектора ответа, и в этом случае, возможно, придется временно использовать байесовский метод. [2]

Критерий прекращения

[ редактировать ]

CAT Алгоритм предназначен для многократного администрирования заданий и обновления оценки способностей испытуемого. Это будет продолжаться до тех пор, пока пул элементов не будет исчерпан, если в CAT не будет включен критерий прекращения. Часто тест прекращается, когда стандартная ошибка измерения испытуемого падает ниже определенного значения, указанного пользователем, отсюда и вышеприведенное утверждение о том, что преимуществом является то, что оценки испытуемого будут одинаково точными или «равноточными». [2] Другие критерии завершения существуют для различных целей теста, например, если тест предназначен только для того, чтобы определить, должен ли экзаменуемый «сдать» или «не пройти» тест, а не для получения точной оценки его способностей. [2] [12]

Другие вопросы

[ редактировать ]

Пройден-не пройден

[ редактировать ]

Во многих ситуациях целью теста является разделение испытуемых на две или более взаимоисключающие и исчерпывающие категории. Сюда входит общий «аттестационный тест», в котором две классификации являются «пройден» и «не пройден», а также ситуации, когда существует три или более классификации, такие как «недостаточный», «базовый» и «продвинутый» уровни знаний. или компетентность. Тип «адаптивного» CAT на уровне элементов, описанный в этой статье, наиболее подходит для тестов, которые не являются тестами «пройден/не пройден», или для тестов «пройден/не пройден», где обеспечение хорошей обратной связи чрезвычайно важно. Некоторые модификации необходимы для прохождения CAT, также известного как компьютеризированный классификационный тест (CCT) . [12] Для экзаменующихся с истинными баллами, очень близкими к проходному, компьютеризированные классификационные тесты приведут к длительным тестам, в то время как для тех, у кого истинные баллы намного выше или ниже проходного балла, будут самые короткие экзамены. [ нужна ссылка ]

Например, необходимо применить новый критерий завершения и алгоритм оценки, который классифицирует экзаменуемого по категории, а не дает точечную оценку способностей. Для этого существуют две основные методики. Более известным из них является последовательный тест отношения вероятностей (SPRT). [13] [14] Это формулирует проблему классификации испытуемого как проверку гипотезы о том, что способности испытуемого равны либо некоторому заданному баллу выше минимального балла , либо другому заданному баллу ниже минимального балла. Обратите внимание, что это формулировка точечной гипотезы, а не формулировка составной гипотезы. [15] это более концептуально уместно. Составная формулировка гипотезы будет заключаться в том, что способности испытуемого находятся в области выше или ниже минимального показателя. [ нужна ссылка ]

Также используется подход доверительного интервала , при котором после выполнения каждого задания алгоритм определяет вероятность того, что истинный балл испытуемого выше или ниже проходного балла. [16] [17] Например, алгоритм может продолжаться до тех пор, пока 95% доверительный интервал для истинного балла больше не будет содержать проходной балл. На этом этапе никаких дополнительных пунктов не требуется, поскольку точность решения о прохождении теста уже составляет 95 %, при условии, что психометрические модели, лежащие в основе адаптивного тестирования, подходят испытуемому и тесту. Первоначально этот подход назывался «адаптивное зачетное тестирование». [16] но его можно применить к неадаптивному выбору заданий и ситуациям классификации с двумя или более оценочными баллами (типичный тест на зачетность имеет один оценочный балл). [17]

На практике алгоритм обычно программируется так, чтобы иметь минимальную и максимальную длину теста (или минимальное и максимальное время администрирования). В противном случае испытуемый со способностями, очень близкими к минимальным, мог бы управлять каждым элементом в банке без принятия решения алгоритмом. [ нужна ссылка ]

Используемый алгоритм выбора элемента зависит от критерия завершения. Максимизация информации в момент разреза более подходит для SPRT, поскольку она максимизирует разницу в вероятностях, используемых в отношении правдоподобия . [18] Максимизация информации при оценке способностей более подходит для подхода, основанного на доверительном интервале, поскольку он минимизирует условную стандартную ошибку измерения, что уменьшает ширину доверительного интервала, необходимого для классификации. [17]

Практические ограничения адаптивности

[ редактировать ]

Исследователь ETS Марта Стокинг пошутила, что большинство адаптивных тестов на самом деле едва ли являются адаптивными тестами (BAT), поскольку на практике на выбор элементов накладывается множество ограничений. Например, экзамены CAT обычно должны соответствовать требованиям по содержанию; [3] устный экзамен, возможно, должен состоять из равного количества аналогий, типов заданий с заполнением пропусков и синонимов. CAT обычно имеют некоторую форму ограничений экспозиции элементов, [3] чтобы наиболее информативные элементы не были переэкспонированы. Кроме того, в некоторых тестах делается попытка сбалансировать поверхностные характеристики предметов, такие как пол людей в предметах или этническая принадлежность, подразумеваемая их именами. Таким образом, экзамены CAT часто ограничены в выборе предметов, а для некоторых экзаменов ограничения могут быть существенными и требовать сложных стратегий поиска (например, линейного программирования ) для поиска подходящих предметов. [ нужна ссылка ]

Простым методом контроля воздействия элементов является «случайный» или стратовый метод. Вместо того, чтобы выбирать наиболее информативный элемент в каждом пункте теста, алгоритм случайным образом выбирает следующий элемент из следующих пяти или десяти наиболее информативных элементов. Это можно использовать на протяжении всего теста или только в начале. [3] Другой метод — метод Симпсона-Хеттера. [19] в котором случайное число извлекается из U(0,1) и сравнивается с параметром k i, определенным для каждого элемента тестируемым пользователем. Если случайное число больше k i , рассматривается следующий наиболее информативный элемент. [3]

Вим ван дер Линден и коллеги. [20] разработали альтернативный подход, называемый теневым тестированием , который предполагает создание целых теневых тестов как часть выбора элементов. Выбор элементов из теневых тестов помогает адаптивным тестам соответствовать критериям выбора, фокусируясь на глобально оптимальных вариантах (в отличие от вариантов, оптимальных для данного элемента ). [ нужна ссылка ]

Многомерный

[ редактировать ]

Учитывая набор предметов, многомерный компьютерный адаптивный тест (MCAT) выбирает эти предметы из банка в соответствии с предполагаемыми способностями учащегося, в результате чего получается индивидуальный тест. MCAT стремятся максимизировать точность теста на основе одновременного изучения нескольких способностей (в отличие от компьютерного адаптивного теста – CAT – который оценивает одну способность) с использованием последовательности вопросов, на которые ранее были даны ответы (Piton-Gonçalves & Aluisio, 2012). [ нужна ссылка ]

См. также

[ редактировать ]
  1. ^ Национальный совет по измерению в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA . Архивировано 2017–07. -22 в Wayback Machine
  2. ^ Jump up to: а б с д и ж г час я дж к Вайс, диджей ; Кингсбери, Г.Г. (1984). «Применение компьютерного адаптивного тестирования к образовательным задачам». Журнал образовательных измерений . 21 (4): 361–375. дои : 10.1111/j.1745-3984.1984.tb01040.x .
  3. ^ Jump up to: а б с д и ж г час я дж Тиссен Д. и Мислеви Р.Дж. (2000). Алгоритмы тестирования. В Вайнер, Х. (ред.) Компьютеризированное адаптивное тестирование: учебник для начинающих. Махва, Нью-Джерси: Lawrence Erlbaum Associates.
  4. ^ Грин, Б.Ф. (2000). Проектирование и работа системы. В Вайнер, Х. (ред.) Компьютеризированное адаптивное тестирование: учебник для начинающих. Махва, Нью-Джерси: Lawrence Erlbaum Associates.
  5. ^ см . в специальном выпуске журнала «Прикладные измерения в образовании или компьютеризированное многоэтапное тестирование» за 2006 год. Дополнительную информацию о MST [ нужна ссылка ]
  6. ^ Нокс, Лиам (5 марта 2024 г.). «Совет колледжа запускает цифровой SAT» . Внутри высшего образования . Проверено 10 марта 2024 г.
  7. Архивировано 3 декабря 2009 г. в Wayback Machine.
  8. ^ Jump up to: а б с д Вайнер, Х.; Мислеви, Р.Дж. (2000). «Теория реакции объекта, калибровка и оценка». В Вайнере, Х. (ред.). Компьютеризированное адаптивное тестирование: учебник для начинающих . Махва, Нью-Джерси: Lawrence Erlbaum Associates.
  9. ^ Лоуренс М. Раднер. «Интерактивное онлайн-руководство по компьютерному адаптивному тестированию» . EdRes.org/scripts/cat .
  10. ^ «Требования компьютеризированного адаптивного тестирования» (PDF) . Веб-сайт FastTEST . Архивировано из оригинала (PDF) 25 апреля 2012 г.
  11. ^ «Совет по GMAT: адаптация к компьютерно-адаптивному тесту» . Блумберг . 3 апреля 2013 г. Архивировано из оригинала 6 апреля 2013 г.
  12. ^ Jump up to: а б Лин, К.-Дж. И Спрей, Дж. А. (2000). Влияние критериев выбора элементов на классификационное тестирование с помощью последовательного теста отношения вероятностей. (Отчет об исследовании 2000-8). Айова-Сити, Айова: ACT, Inc.
  13. ^ Уолд, А. (1947). Последовательный анализ . Нью-Йорк: Уайли.
  14. ^ Рекейс, доктор медицины (1983). «Процедура принятия решений с использованием индивидуального тестирования». Ин Вайс, диджей (ред.). Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование . Нью-Йорк: Академическая пресса. стр. 237–255. ISBN  0-12-742780-5 .
  15. ^ Вейцман, Р.А. (1982). «Последовательное тестирование на отбор». Прикладные психологические измерения . 6 (3): 337–351. CiteSeerX   10.1.1.1030.6828 . дои : 10.1177/014662168200600310 . S2CID   122365749 .
  16. ^ Jump up to: а б Кингсбери, Дж.Г.; Вайс, диджей (1983). «Процедура принятия решений с использованием индивидуального тестирования». Ин Вайс, диджей (ред.). Сравнение адаптивного зачетного тестирования на основе IRT и процедуры последовательного зачетного тестирования . Нью-Йорк: Академическая пресса. стр. 257–283. ISBN  0-12-742780-5 .
  17. ^ Jump up to: а б с Эгген, TJH M; Стрэтманс, GJJM (2000). «Компьютерное адаптивное тестирование для разделения испытуемых на три категории». Образовательные и психологические измерения . 60 (5): 713–734. дои : 10.1177/00131640021970862 . S2CID   64632296 .
  18. ^ Спрей, Дж. А., и Рекес, доктор медицины (1994). Выбор тестовых заданий для принятия решения с помощью компьютеризированного адаптивного теста. Документ, представленный на ежегодном собрании Национального совета по измерениям в образовании (Новый Орлеан, Луизиана, 5–7 апреля 1994 г.).
  19. ^ Симпсон, Б.Дж., и Хеттер, Р.Д. (1985). Контроль уровня подверженности элементов при компьютеризированном адаптивном тестировании. Доклад представлен на ежегодной конференции Ассоциации военных испытаний в Сан-Диего.
  20. ^ ван дер Линден, WJ; Вельдкамп, БП (2004). «Ограничение воздействия элементов при компьютеризированном адаптивном тестировании с помощью теневых тестов» . Журнал образовательной и поведенческой статистики . 29 (3): 273–291. дои : 10.3102/10769986029003273 . S2CID   381707 .

Дополнительные источники

[ редактировать ]

Дальнейшее чтение

[ редактировать ]
[ редактировать ]
Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 310a500663fe11071215ca6d1b7ecaad__1712668020
URL1:https://arc.ask3.ru/arc/aa/31/ad/310a500663fe11071215ca6d1b7ecaad.html
Заголовок, (Title) документа по адресу, URL1:
Computerized adaptive testing - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)