Теория ответа на предмет
В психометрии , теория ответов на задания ( IRT ) (также известная как теория скрытых черт , теория сильной истинной оценки или современная теория ментальных тестов ) является парадигмой для разработки, анализа и оценки тестов , анкет и подобных инструментов измеряющих способности. отношения или другие переменные. Это теория тестирования, основанная на взаимосвязи между успеваемостью отдельных людей по заданию теста и уровнем успеваемости участников теста по общему показателю способностей, для измерения которых предназначено это задание. Для представления как заданий, так и характеристик тестируемых используется несколько различных статистических моделей. [1] В отличие от более простых альтернатив создания шкал и оценки ответов на анкеты, здесь не предполагается, что каждый пункт одинаково сложен. Это отличает IRT от, например, масштабирования Лайкерта , в котором « предполагается, что все элементы являются копиями друг друга или, другими словами, элементы считаются параллельными инструментами». [2] Напротив, теория реакции на задание рассматривает сложность каждого задания (характеристические кривые задания, или ICC ) как информацию, которая должна быть включена в масштабирование заданий.
Он основан на применении соответствующих математических моделей к данным тестирования . Поскольку ее часто считают превосходящей классическую теорию тестирования , [3] это предпочтительный метод разработки весов в США, [ нужна ссылка ] особенно когда требуются оптимальные решения, как в так называемых тестах с высокими ставками , например, вступительный экзамен в аспирантуру (GRE) и вступительный тест по менеджменту в аспирантуру (GMAT).
имени Теория ответа на задание обусловлена тем, что теория фокусирует внимание на задании, в отличие от фокуса на уровне теста, как в классической теории тестирования. Таким образом, IRT моделирует реакцию каждого испытуемого с заданными способностями на каждый элемент теста. Термин «элемент» является общим и охватывает все виды информационных элементов. Это могут быть вопросы с несколькими вариантами ответов, на которые даны неправильные и правильные ответы, но они также обычно представляют собой утверждения в анкетах, которые позволяют респондентам указать уровень согласия ( рейтинг или шкала Лайкерта ), или симптомы пациента, оцениваемые как присутствующие/отсутствующие, или диагностическую информацию в комплексе. системы.
IRT основан на идее, что вероятность правильного ответа на предмет является математической функцией человека и предмета параметров . (Выражение «математическая функция параметров человека и предмета» аналогично Левина уравнению B = f(P, E) , которое утверждает, что поведение является функцией человека в его среде.) Параметр человека истолковывается как ( обычно) одна скрытая черта или измерение. Примеры включают общий интеллект или силу позиции. Параметры, по которым характеризуются элементы, включают их сложность (известную как «местоположение» из-за их местоположения в диапазоне сложности); дискриминация (наклон или корреляция), показывающая, насколько сильно уровень успеха людей зависит от их способностей; и параметр псевдоугадывания, характеризующий (нижнюю) асимптоту , при которой даже наименее способные люди получат баллы благодаря угадыванию (например, 25% для чистого шанса на предмет с множественным выбором и четырьмя возможными ответами).
Таким же образом IRT можно использовать для измерения поведения людей в социальных сетях. Мнения, высказанные разными людьми, можно объединить для изучения с помощью IRT. Также оценивалось его использование для классификации информации как дезинформации или правдивой информации.
Обзор
[ редактировать ]Этот раздел нуждается в дополнительных цитатах для проверки . ( декабрь 2015 г. ) |
Концепция функции ответа на задание возникла примерно до 1950 года. Новаторская работа IRT как теории произошла в 1950-х и 1960-х годах. Тремя пионерами были Службы образовательного тестирования психометрик Фредерик М. Лорд . [4] датский математик Георг Раш и австрийский социолог Пауль Лазарсфельд , которые независимо проводили параллельные исследования. Ключевые фигуры, которые способствовали прогрессу IRT, включают Бенджамина Дрейка Райта и Дэвида Андрича . ИРТ не получил широкого распространения до конца 1970-х и 1980-х годов, когда практикующим специалистам рассказали о «полезности» и «преимуществах» ИРТ, с одной стороны, а персональные компьютеры предоставили многим исследователям доступ к вычислительной мощности, необходимой для ИРТ, с другой. В 1990-х годах Маргарет Ву разработала две программы для ответов на вопросы, которые анализируют данные PISA и TIMSS; ACER ConQuest (1998 г.) и R-пакет ТАМ (2010 г.).
Помимо прочего, цель IRT — предоставить основу для оценки того, насколько хорошо работают оценки и насколько хорошо работают отдельные элементы оценок. Наиболее распространенное применение IRT — в образовании, где психометристы используют его для разработки и проектирования экзаменов , ведения банков заданий для экзаменов и уравнивания сложности заданий для последовательных версий экзаменов (например, чтобы обеспечить возможность сравнения результатов с течением времени). . [5]
Модели IRT часто называют моделями скрытых черт . Термин «скрытый» используется, чтобы подчеркнуть, что ответы на отдельные вопросы считаются наблюдаемыми проявлениями гипотетических черт, конструкций или атрибутов, которые не наблюдаются напрямую, но которые должны быть выведены из явных ответов. Модели скрытых черт были разработаны в области социологии, но практически идентичны моделям IRT.
Обычно IRT считается улучшением классической теории тестирования (CTT). Для задач, которые можно выполнить с помощью CTT, IRT обычно обеспечивает большую гибкость и предоставляет более сложную информацию. Некоторые приложения, такие как компьютеризированное адаптивное тестирование , поддерживаются IRT и не могут быть реализованы с использованием только классической теории тестирования. позволяет исследователю повысить надежность оценки Еще одним преимуществом IRT перед CTT является то, что более сложная информация, которую предоставляет IRT , .
IRT предполагает три предположения:
- Одномерный признак, обозначаемый ;
- Локальная независимость элементов;
- Реакция человека на предмет может быть смоделирована с помощью математической функции ответа предмета (IRF).
Кроме того, предполагается, что признак можно измерить по шкале (само существование теста предполагает это), обычно установленной на стандартной шкале со средним значением 0,0 и стандартным отклонением 1,0. Одномерность следует интерпретировать как однородность, качество, которое следует определить или эмпирически продемонстрировать в отношении данной цели или использования, но не как величину, которую можно измерить. «Локальная независимость» означает (а) что вероятность использования одного предмета не связана с использованием какого-либо другого предмета(ов) и (б) что ответ на задание является независимым решением каждого тестируемого, т.е. здесь нет читерства, парной или групповой работы. Тема размерности часто исследуется с помощью факторного анализа , в то время как IRF является основным строительным блоком IRT и центром большей части исследований и литературы.
Функция ответа на элемент
[ редактировать ]IRF дает вероятность того, что человек с данным уровнем способностей ответит правильно. У людей с более низкими способностями меньше шансов, в то время как люди с высокими способностями, скорее всего, ответят правильно; например, учащиеся с более высокими математическими способностями с большей вероятностью правильно решат математический вопрос. Точное значение вероятности зависит, помимо способностей, от набора параметров предмета для IRF.
Логистическая модель с тремя параметрами
[ редактировать ]Например, в логистической модели с тремя параметрами ( 3PL ) вероятность правильного ответа на дихотомический элемент i , обычно вопрос с несколькими вариантами ответов, равна:
где указывает на то, что способности человека моделируются как выборка из нормального распределения с целью оценки параметров элемента. После оценки параметров предмета оцениваются способности отдельных людей для целей отчетности. , , и — параметры элемента. Параметры элемента определяют форму IRF. На рисунке 1 изображен идеальный ICC 3PL.
Параметры товара можно интерпретировать как изменение формы стандартной логистической функции :
Вкратце, параметры интерпретируются следующим образом (для наглядности опускаем индексы); b является самым простым, поэтому указан первым:
- б – сложность, расположение предмета: середина пути между (мин) и 1 (макс), а также при максимальном наклоне.
- а – дискриминация, масштаб, наклон: максимальный наклон
- в – псевдоугадайка, случайность, асимптотический минимум
Если тогда это упрощается до и это означает, что b равно 50% уровню успеха (сложности), а a (деленное на четыре) - это максимальный наклон (дискриминация), который происходит на уровне успеха 50%. Кроме того, логит (логарифм шансов ) правильного ответа равен (при условии, что ): в частности, если способность θ равна сложности b, существуют четные шансы (1:1, поэтому логит 0) правильного ответа, чем больше способность выше (или ниже) сложности, тем больше (или меньше) вероятность правильного ответа ответ, при этом дискриминация определяет , насколько быстро шансы увеличиваются или уменьшаются в зависимости от способностей.
Другими словами, стандартная логистическая функция имеет асимптотический минимум 0 ( ), сосредоточен вокруг 0 ( , ), и имеет максимальный наклон параметр растягивает горизонтальный масштаб, параметр смещает горизонтальный масштаб, а параметр сжимает вертикальный масштаб от к Это подробно описано ниже.
Параметр представляет местоположение предмета, который в случае тестирования достижений называется сложностью предмета. Это точка на где IRF имеет максимальный наклон и где значение находится посередине между минимальным значением и максимальное значение 1. Пример задания имеет среднюю сложность, поскольку =0,0, что находится вблизи центра распределения. Обратите внимание, что эта модель масштабирует сложность задания и черты характера человека в один и тот же континуум. Таким образом, можно говорить о том, что задание примерно так же сложно, как уровень характеристики человека А, или о том, что уровень характеристики человека примерно такой же, как сложность предмета Y, в том смысле, что успешное выполнение задачи, связанной с заданием, отражает конкретную уровень способностей.
Параметр элемента представляет собой дискриминацию предмета: то есть степень, в которой предмет дискриминирует людей в разных регионах скрытого континуума. Этот параметр характеризует наклон IRF, при котором наклон достигает максимального значения. В примере элемента есть =1,0, что обеспечивает достаточно хорошую дискриминацию; у людей с низкими способностями действительно гораздо меньше шансов правильно ответить, чем у людей с более высокими способностями. Этот параметр дискриминации соответствует весовому коэффициенту соответствующего элемента или показателя в стандартной взвешенной линейной регрессии ( МНК ) и, следовательно, может использоваться для создания взвешенного индекса показателей для неконтролируемого измерения лежащей в основе скрытой концепции.
Для таких элементов, как элементы с множественным выбором , параметр используется для того, чтобы объяснить влияние догадок на вероятность правильного ответа. Это указывает на вероятность того, что люди с очень низкими способностями случайно ответят на этот вопрос правильно, что математически представлено как нижняя асимптота . Элемент с четырьмя вариантами множественного выбора может иметь IRF, как пример элемента; вероятность того, что кандидат с чрезвычайно низкими способностями угадает правильный ответ, составляет 1/4, поэтому будет примерно 0,25. Этот подход предполагает, что все варианты одинаково вероятны, потому что, если один вариант не имеет смысла, даже человек с самыми низкими способностями сможет от него отказаться, поэтому методы оценки параметров IRT учитывают это и оценивают на основании наблюдаемых данных. [6]
модели ИРТ
[ редактировать ]В общих чертах модели IRT можно разделить на два семейства: одномерные и многомерные. Одномерные модели требуют одного измерения черт (способностей). . Многомерные модели IRT моделируют данные ответов, предположительно возникающие из множества характеристик. Однако из-за значительно возросшей сложности в большинстве исследований и приложений IRT используется одномерная модель.
Модели IRT также можно классифицировать по количеству полученных ответов. Типичный элемент с множественным выбором является дихотомическим ; даже несмотря на то, что вариантов может быть четыре или пять, они все равно оцениваются только как правильные/неправильные (верные/неправильные). Другой класс моделей применим к политомическим результатам, где каждый ответ имеет разное значение балла. [7] [8] Типичным примером этого являются элементы типа Лайкерта , например «Оцените по шкале от 1 до 5». Другим примером является скоринг частичной кредитоспособности, к которому могут быть применены такие модели, как политомическая модель Раша .
Количество параметров IRT
[ редактировать ]Дихотомические модели IRT описываются количеством параметров, которые они используют. [9] 3PL назван так потому, что в нем используются три параметра элемента. Двухпараметрическая модель (2PL) предполагает, что данные не подлежат угадыванию, но элементы могут различаться по местоположению ( ) и дискриминация ( ). Однопараметрическая модель (1PL) предполагает, что угадывание является частью способности и что все предметы, соответствующие модели, имеют эквивалентные различия, так что предметы описываются только одним параметром ( ). В результате однопараметрические модели обладают свойством специфической объективности, то есть ранг сложности задания одинаков для всех респондентов независимо от способностей, а ранг способностей человека одинаков для заданий независимо от сложности. Таким образом, модели с 1 параметром не зависят от выборки, а это свойство не справедливо для моделей с двумя и тремя параметрами. Кроме того, теоретически существует четырехпараметрическая модель (4PL) с верхней асимптотой , обозначаемой где в 3PL заменяется на . Однако это используется редко. Обратите внимание, что алфавитный порядок параметров заданий не соответствует их практической или психометрической важности; расположение/сложность ( ) параметр, очевидно, является наиболее важным, поскольку он включен во все три модели. 1PL использует только , 2PL использует и , добавляет 3PL , а 4PL добавляет .
Модель 2PL эквивалентна модели 3PL с и подходит для тестирования заданий, в которых угадывание правильного ответа крайне маловероятно, например заданий с заполнением пропусков («Каков квадратный корень из 121?»), или когда концепция угадывания неприменима, например как личность, отношение или интересы (например, «Мне нравятся бродвейские мюзиклы. Согласен/Не согласен»).
1PL предполагает не только отсутствие угадывания (или неуместность), но и то, что все задания эквивалентны с точки зрения дискриминации, что аналогично общему факторному анализу с одинаковыми нагрузками для всех заданий. Отдельные предметы или индивидуумы могут иметь вторичные факторы, но предполагается, что они взаимно независимы и коллективно ортогональны .
Логистические и обычные модели IRT
[ редактировать ]Альтернативная формулировка строит IRF на основе нормального распределения вероятностей; их иногда называют нормальными оживальными моделями . Например, формула для двухпараметрической IRF с нормальным оживалом:
где Φ — кумулятивная функция распределения (CDF) стандартного нормального распределения.
Модель нормального ожива основана на предположении о нормально распределенной ошибке измерения и на этом основании теоретически привлекательна. Здесь это, опять же, параметр сложности. Параметр дискриминации , стандартное отклонение ошибки измерения для элемента i и сравнимое с 1/ .
Можно оценить модель скрытых черт нормального огива путем факторного анализа матрицы тетрахорических корреляций между элементами. [10] Это означает, что технически возможно оценить простую модель IRT с использованием статистического программного обеспечения общего назначения.
Благодаря изменению масштаба параметра способности можно приблизить логистическую модель 2PL к кумулятивной нормальной оживе. [11] Обычно логистические и нормально-оживальные IRF 2PL различаются по вероятности не более чем на 0,01 во всем диапазоне функции. Однако наибольшая разница проявляется в хвостах распределения, которые, как правило, оказывают большее влияние на результаты.
Модель скрытых признаков/IRT изначально была разработана с использованием обычных огив, но в то время (1960-е годы) это считалось слишком требовательным в вычислительном отношении для компьютеров. Логистическая модель была предложена как более простая альтернатива и с тех пор получила широкое распространение. Однако совсем недавно было продемонстрировано, что, используя стандартные полиномиальные аппроксимации нормального CDF , [12] модель нормального ожива не требует больше вычислительных затрат, чем логистические модели. [13]
Модель Раша
[ редактировать ]Модель Раша часто называют моделью 1PL IRT. Однако сторонники моделирования Раша предпочитают рассматривать его как совершенно другой подход к концептуализации взаимосвязи между данными и теорией. [14] Как и другие подходы к статистическому моделированию, IRT подчеркивает приоритет соответствия модели наблюдаемым данным. [15] в то время как модель Раша подчеркивает первостепенность требований к фундаментальным измерениям, при этом адекватное соответствие модели данных является важным, но второстепенным требованием, которое необходимо выполнить, прежде чем можно будет заявить, что тест или исследовательский инструмент измеряет признак. [16] С практической точки зрения это означает, что подходы IRT включают дополнительные параметры модели для отражения закономерностей, наблюдаемых в данных (например, позволяя элементам варьироваться в их корреляции со скрытым признаком), тогда как в подходе Раша утверждения о наличии скрытого признака может считаться действительным только тогда, когда (а) данные соответствуют модели Раша и (б) тестовые задания и испытуемые соответствуют модели. Таким образом, в соответствии с моделями Раша несоответствующие ответы требуют диагностики причины несоответствия и могут быть исключены из набора данных, если можно подробно объяснить, почему они не затрагивают скрытую черту. [17] Таким образом, подход Раша можно рассматривать как подтверждающий подход, в отличие от исследовательских подходов, которые пытаются смоделировать наблюдаемые данные.
Наличие или отсутствие параметра предположения или псевдослучайности является важным, а иногда и спорным различием. Подход IRT включает параметр левой асимптоты для учета угадывания в экзаменах с множественным выбором , тогда как модель Раша этого не делает, поскольку предполагается, что угадывание добавляет к данным случайно распределенный шум. Поскольку шум распределяется случайным образом, предполагается, что при условии, что проверено достаточное количество элементов, ранжирование людей по скрытому признаку по исходному баллу не изменится, а просто подвергнется линейному изменению масштаба. Напротив, трехпараметрическая IRT обеспечивает соответствие модели данных путем выбора модели, которая соответствует данным. [18] за счет принесения в жертву конкретной объективности .
На практике модель Раша имеет как минимум два принципиальных преимущества по сравнению с подходом IRT. Первое преимущество – это приоритет конкретных требований Раша, [19] который (при его соблюдении) обеспечивает фундаментальное измерение без участия человека (когда люди и предметы могут быть отображены на одной и той же инвариантной шкале). [20] Еще одним преимуществом подхода Раша является то, что оценка параметров в моделях Раша более проста из-за наличия достаточной статистики, что в этом приложении означает взаимно однозначное сопоставление необработанных правильных числовых оценок с Рашем. оценки. [21]
Анализ соответствия модели
[ редактировать ]Как и при любом использовании математических моделей, важно оценить соответствие данных модели. Если диагностировано несоответствие задания какой-либо модели из-за плохого качества задания, например, запутывание отвлекающих факторов в тесте с несколькими вариантами ответов, то элементы могут быть удалены из этой тестовой формы и переписаны или заменены в будущих тестовых формах. Однако если возникает большое количество несоответствующих элементов без видимой причины несоответствия, необходимо будет пересмотреть конструктную валидность теста и, возможно, переписать спецификации теста. Таким образом, несоответствие предоставляет разработчикам тестов бесценные диагностические инструменты, позволяющие эмпирически проверять гипотезы, на которых основаны спецификации тестов, на основе данных.
Существует несколько методов оценки соответствия, например статистика Хи-квадрат или ее стандартизированная версия. Двух- и трехпараметрические модели IRT корректируют различение элементов, обеспечивая улучшенное соответствие модели данных, поэтому статистике соответствия не хватает подтверждающей диагностической ценности, обнаруженной в однопараметрических моделях, где идеализированная модель указывается заранее.
Данные следует удалять не на основании несоответствия модели, а скорее потому, что была диагностирована соответствующая конструкция причина несоответствия, например, если английский язык не является родным, сдавая тест по естественным наукам, написанный на английском языке. Можно утверждать, что такой кандидат не принадлежит к одной и той же популяции людей, в зависимости от размерности теста, и, хотя один параметр измерения IRT считается независимым от выборки, они не являются независимыми от популяции, поэтому такое несоответствие, как это, построить релевантную и не делает тест или модель недействительными. Такой подход является важным инструментом валидации инструментов. В двух- и трехпараметрических моделях, где психометрическая модель корректируется в соответствии с данными, будущие применения теста должны быть проверены на соответствие той же модели, которая использовалась при первоначальной валидации, чтобы подтвердить гипотезу о том, что баллы от каждой администрации обобщают. другим администрациям. Если для каждой администрации указана другая модель для достижения соответствия модели данных, то измеряется другой скрытый признак, и нельзя утверждать, что результаты тестов сопоставимы между администрациями.
Информация
[ редактировать ]Одним из основных вкладов теории реагирования на предмет является расширение концепции надежности . Традиционно надежность относится к точности измерения (т.е. степени отсутствия ошибок в измерениях). Традиционно он измеряется с использованием единого индекса, определяемого различными способами, например, отношения истинной и наблюдаемой дисперсии оценок. Этот индекс полезен для характеристики средней надежности теста, например, для сравнения двух тестов. Но IRT ясно дает понять, что точность не одинакова для всего диапазона результатов тестов. Например, результаты на границах диапазона теста обычно содержат больше ошибок, чем результаты ближе к середине диапазона.
Теория реагирования на задание выдвигает концепцию задания и тестовой информации вместо надежности. Информация также является функцией параметров модели. Например, согласно теории информации Фишера , информация об элементе, предоставляемая в случае 1PL для данных дихотомического ответа, представляет собой просто вероятность правильного ответа, умноженную на вероятность неправильного ответа, или
Стандартная ошибка оценки (SE) является обратной величиной тестовой информации на данном уровне признака.
Таким образом, больше информации означает меньшую ошибку измерения.
Для других моделей, таких как модели с двумя и тремя параметрами, параметр дискриминации играет важную роль в функции. Функция информации об элементе для модели с двумя параметрами:
Функция информации об элементе для модели с тремя параметрами:
В целом функции информации об элементах имеют форму колокола. Предметы с высокой степенью различения имеют высокие и узкие информационные функции; они вносят большой вклад, но в узком диапазоне. Менее разборчивые элементы дают меньше информации, но в более широком диапазоне.
Графики информации об элементе можно использовать, чтобы увидеть, какой объем информации вносит элемент и в какую часть диапазона оценок шкалы. Из-за локальной независимости информационные функции элемента являются аддитивными . Таким образом, информационная функция теста представляет собой просто сумму информационных функций заданий экзамена. Используя это свойство с большим банком элементов, можно сформировать функции тестовой информации для очень точного контроля погрешности измерения .
Характеристика точности результатов тестов, пожалуй, является центральным вопросом психометрической теории и главным различием между IRT и CTT. Результаты IRT показывают, что концепция надежности CTT является упрощением. Вместо надежности IRT предлагает функцию тестовой информации, которая показывает степень точности при различных значениях тета, θ.
Эти результаты позволяют специалистам по психометрии (потенциально) тщательно формировать уровень надежности для разных диапазонов способностей, включая тщательно выбранные элементы. Например, в ситуации сертификации , когда тест может быть пройден или не пройден, где имеется только один «проходной балл» и где фактический проходной балл неважен, можно разработать очень эффективный тест, выбрав только те элементы, которые имеют высокая информация возле кат-скора. Эти предметы обычно соответствуют предметам, сложность которых примерно такая же, как и у кат-скора.
Подсчет очков
[ редактировать ]Параметр человека представляет собой величину скрытой черты личности, которая представляет собой человеческие способности или качества, измеряемые с помощью теста. [23] Это могут быть когнитивные способности, физические способности, навыки, знания, отношение, характеристики личности и т. д.
Оценка личностного параметра — «балла» в тесте с IRT — рассчитывается и интерпретируется совершенно иначе по сравнению с традиционными оценками, такими как число или процент правильных ответов. Общий балл индивидуума за правильность чисел не является фактическим баллом, а скорее основан на IRF, что приводит к взвешенному баллу, когда модель содержит параметры распознавания предметов. Фактически он получается путем умножения функции ответа элемента для каждого элемента, чтобы получить функцию правдоподобия , высшая точка которой является максимального правдоподобия оценкой . Эта самая высокая точка обычно оценивается с помощью программного обеспечения IRT с использованием метода Ньютона-Рафсона . [24] Хотя при IRT оценка гораздо сложнее, для большинства тестов корреляция между тета-оценкой и традиционным баллом очень высока; часто оно составляет 0,95 и более [цитата?]. График сопоставления оценок IRT с традиционными оценками имеет оживающую форму, что означает, что IRT оценивает отдельных индивидуумов на границах диапазона больше, чем в середине.
Важным различием между CTT и IRT является обработка ошибки измерения, индексируемой стандартной ошибкой измерения . Все тесты, анкеты и инвентаризации являются неточными инструментами; человека мы никогда не сможем узнать истинный балл , а можем получить только приблизительную оценку, наблюдаемый балл. Существует некоторая случайная ошибка, которая может привести к тому, что наблюдаемая оценка окажется выше или ниже истинной. СТТ предполагает, что величина ошибки одинакова для каждого экзаменуемого, а IRT допускает ее варьирование. [25]
Кроме того, ничто в IRT не опровергает развитие или совершенствование человека и не предполагает, что уровень черт является фиксированным. Человек может приобрести навыки, знания или даже так называемые «навыки сдачи тестов», которые могут привести к более высокому истинному баллу. Фактически, часть исследований IRT фокусируется на измерении изменений уровня черт. [26]
Сравнение классической теории и теории реагирования на предметы
[ редактировать ]Классическая теория тестирования (КТТ) и IRT в основном касаются одних и тех же проблем, но представляют собой разные разделы теории и используют разные методы. Хотя эти две парадигмы в целом согласованы и дополняют друг друга, существует ряд различий:
- IRT делает более строгие предположения, чем CTT, и во многих случаях дает соответственно более убедительные выводы; прежде всего, характеристики ошибки. Конечно, эти результаты верны только тогда, когда предположения моделей IRT действительно выполняются.
- Хотя результаты КТТ позволили получить важные практические результаты, основанная на моделях природа IRT дает много преимуществ по сравнению с аналогичными результатами КТТ.
- Процедуры оценки результатов теста CTT имеют то преимущество, что их легко вычислить (и объяснить), тогда как оценка IRT обычно требует относительно сложных процедур оценки.
- IRT обеспечивает несколько улучшений в масштабировании предметов и людей. Особенности зависят от модели IRT, но большинство моделей масштабируют сложность предметов и способности людей по одному и тому же показателю. Таким образом, можно осмысленно сравнить сложность предмета и способности человека.
- Еще одно улучшение, обеспечиваемое IRT, заключается в том, что параметры моделей IRT обычно не зависят от выборки или теста, тогда как истинный балл определяется в CTT в контексте конкретного теста. Таким образом, IRT обеспечивает значительно большую гибкость в ситуациях, когда используются разные образцы или формы испытаний. Эти результаты IRT лежат в основе компьютеризированного адаптивного тестирования.
Стоит также упомянуть некоторые конкретные сходства между CTT и IRT, которые помогают понять соответствие между понятиями. Во-первых, Господь [27] показал, что в предположении, что нормально распределена, дискриминация в модели 2PL является примерно монотонной функцией точечно -бисериальной корреляции . В частности:
где — это точечная бисериальная корреляция элемента i . Таким образом, если предположение верно, то там, где существует более высокая дискриминация, обычно будет более высокая корреляция между точками и бирядами.
Еще одно сходство заключается в том, что, хотя IRT предусматривает стандартную ошибку каждой оценки и информационную функцию, также возможно получить индекс для теста в целом, который напрямую аналогичен альфе Кронбаха , называемый индексом разделения . Для этого необходимо начать с разложения оценки IRT на истинное местоположение и ошибку, аналогично разложению наблюдаемой оценки на истинную оценку и ошибку в CTT. Позволять
где это истинное местоположение, и – это связь ошибки с оценкой. Затем представляет собой оценку стандартного отклонения для человека с заданным взвешенным баллом и индексом разделения получается следующим образом
где среднеквадратическая стандартная ошибка оценки человека дает оценку дисперсии ошибок, , среди людей. Стандартные ошибки обычно возникают как побочный продукт процесса оценки. Индекс разделения обычно очень близок по значению к альфе Кронбаха. [28]
IRT иногда называют сильной теорией истинного результата или современной теорией ментальных тестов, потому что это более поздняя теория, которая делает более явными гипотезы, которые неявно заложены в CTT.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ «Глоссарий важных терминов оценки и измерения» . Национальный совет по измерению в образовании . Архивировано из оригинала 22 июля 2017 г.
- ^ А. ван Альфен, Р. Халфенс, А. Хасман и Т. Имбос. (1994). Лайкерт или Раш? Нет ничего более применимого, чем хорошая теория. Журнал продвинутого сестринского дела . 20 , 196-201
- ^ Эмбретсон, Сьюзен Э.; Рейз, Стивен П. (2000). Теория ответов на вопросы для психологов . Психология Пресс. ISBN 9780805828191 .
- ^ Обзор исследования ETS
- ^ Хэмблтон, Р.К., Сваминатан, Х., и Роджерс, Х.Дж. (1991). Основы теории ответов на вопросы . Ньюбери-Парк, Калифорния: Sage Press.
- ^ Бок, Р.Д.; Эйткин, М. (1981). «Маргинальная оценка максимального правдоподобия параметров элемента: применение EM-алгоритма». Психометрика . 46 (4): 443–459. дои : 10.1007/BF02293801 . S2CID 122123206 .
- ^ Остини, Ремо; Неринг, Майкл Л. (2005). Модели теории реагирования на политомические предметы . Количественные приложения в социальных науках. Том. 144. МУДРЕЦ. ISBN 978-0-7619-3068-6 .
- ^ Неринг, Майкл Л.; Остини, Ремо, ред. (2010). Справочник по моделям теории ответов на политомические вопросы . Тейлор и Фрэнсис. ISBN 978-0-8058-5992-8 .
- ^ Тиссен, Д. и Орландо, М. (2001). Теория ответа на предметы для предметов, оцененных в двух категориях. В Д. Тиссен и Вайнер, Х. (ред.), Оценка тестов (стр. 73–140). Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.
- ^ К.Г. Йорескуг и Д. Сёрбом (1988). Руководство пользователя PRELIS 1, версия 1 . Чикаго: Scientific Software, Inc.
- ^ Камилли, Грегори (1994). «Происхождение константы масштабирования d = 1,7 в теории ответа на предмет». Журнал образовательной и поведенческой статистики . 19 (3): 293–295. дои : 10.3102/10769986019003293 . S2CID 122401679 .
- ^ Абрамовиц М., Стегун И.А. (1972). Справочник по математическим функциям . Вашингтон, округ Колумбия: Типография правительства США.
- ^ Юберсакс, Дж. С. (декабрь 1999 г.). «Анализ скрытого класса пробита с дихотомическими или упорядоченными категориями: модели условной независимости/зависимости». Прикладные психологические измерения . 23 (4): 283–297. дои : 10.1177/01466219922031400 . S2CID 120497324 .
- ^ Андрич, Д. (1989), Различия между предположениями и требованиями в измерениях в социальных науках», в Китс, Дж. А., Тафт, Р., Хит, Р. А., Ловибонд, С. (редакторы), Математические и теоретические системы , Elsevier Science Publishers , Северная Голландия, Амстердам, стр. 7-16.
- ^ Стейнберг, Дж. (2000). Фредерик Лорд, придумавший критерии тестирования, умирает в возрасте 87 лет. New York Times, 10 февраля 2000 г.
- ^ Андрич, Д. (январь 2004 г.). «Споры и модель Раша: характеристика несовместимых парадигм?». Медицинская помощь . 42 (1): I–7. дои : 10.1097/01.mlr.0000103528.48582.7c . ПМИД 14707751 . S2CID 23087904 .
- ^ Смит, Р.М. (1990). «Теория и практика соответствия» . Транзакции измерения Раша . 3 (4): 78.
- ^ Цвик, Р.; Тайер, Д.Т.; Вингерский, М. (декабрь 1995 г.). «Влияние калибровки Раша на способность и оценку DIF в компьютерно-адаптивных тестах». Журнал образовательных измерений . 32 (4): 341–363. дои : 10.1111/j.1745-3984.1995.tb00471.x .
- ^ Раш, Г. (1960/1980). Вероятностные модели для некоторых тестов интеллекта и достижений . (Копенгаген, Датский институт исследований в области образования), расширенное издание (1980 г.) с предисловием и послесловием Б. Д. Райта. Чикаго: Издательство Чикагского университета.
- ^ Райт, Б.Д. (1992). «IRT в 1990-е годы: какие модели работают лучше всего?». Транзакции измерения Раша . 6 (1): 196–200.
- ^ Фишер, Г.Х. и Моленаар, И.В. (1995). Модели Раша: основы, последние разработки и приложения . Нью-Йорк: Спрингер.
- ^ де Айяла, Р.Дж. (2009). Теория и практика теории ответа на предмет , Нью-Йорк, Нью-Йорк: Guilford Press. (6.12), с.144
- ^ Лазарсфельд П.Ф. и Генри Н.В. (1968). Анализ скрытой структуры . Бостон: Хоутон Миффлин.
- ^ Томпсон, Северная Каролина (2009). «Оценка способностей с помощью IRT» (PDF) .
- ^ Колен, Майкл Дж.; Цзэн, Линцзя; Хэнсон, Брэдли А. (июнь 1996 г.). «Условные стандартные ошибки измерения показателей шкалы с использованием IRT». Журнал образовательных измерений . 33 (2): 129–140. дои : 10.1111/j.1745-3984.1996.tb00485.x .
- ^ Холл, Лос-Анджелес, и Макдональд, Дж.Л. (2000). Измерение изменений в восприятии учителями влияния развития персонала на преподавание. Документ, представленный на ежегодном собрании Американской ассоциации исследований в области образования (Новый Орлеан, Луизиана, 24–28 апреля 2000 г.).
- ^ Лорд, FM (1980). Применение теории реагирования на задания к практическим задачам тестирования . Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.
- ^ Андрич, Д. (1982). «Индекс разделения людей в теории скрытых черт, традиционный индекс KR.20 и модель ответа по шкале Гуттмана». Исследования в области образования и перспективы . 9 : 95–104.
Дальнейшее чтение
[ редактировать ]Было написано множество книг, посвященных теории ответов на задания или содержащих модели IRT или подобные IRT. Это неполный список, в котором основное внимание уделяется текстам, которые обеспечивают большую глубину.
- Лорд, FM (1980). Применение теории реагирования на задания к практическим задачам тестирования. Махва, Нью-Джерси: Эрлбаум.
- В этой книге изложена большая часть работы Лорда по IRT, включая главы, посвященные взаимосвязи между IRT и классическими методами, основам IRT, оценке и нескольким более сложным темам. Глава, посвященная оценкам, уже устарела, поскольку в ней в основном обсуждается совместный метод максимального правдоподобия, а не метод предельного максимального правдоподобия, реализованный Дарреллом Боком и его коллегами.
- Эмбретсон, Сьюзен Э.; Рейз, Стивен П. (2000). Теория ответов на вопросы для психологов . Психология Пресс. ISBN 978-0-8058-2819-1 .
- Эта книга представляет собой доступное введение в ИРТ, предназначенное, как следует из названия, для психологов.
- Бейкер, Фрэнк (2001). Основы теории ответов на вопросы. Информационный центр ERIC по оценке и анализу, Университет Мэриленда, Колледж-Парк, Мэриленд.
- Эта вводная книга написана одним из пионеров в этой области и доступна в Интернете по адресу [1].
- Бейкер, Фрэнк Б.; Ким, Сок-Хо (2004). Теория ответа на предмет: методы оценки параметров (2-е изд.). Марсель Деккер. ISBN 978-0-8247-5825-7 .
- В этой книге описаны различные модели теории реагирования предметов и представлены подробные объяснения алгоритмов, которые можно использовать для оценки параметров предметов и способностей. Части книги доступны онлайн в виде ограниченного предварительного просмотра в Google Книгах .
- ван дер Линден, Вим Дж.; Хэмблтон, Рональд К., ред. (1996). Справочник по современной теории реагирования на предметы . Спрингер. ISBN 978-0-387-94661-0 .
- В этой книге представлен всесторонний обзор различных популярных моделей IRT. Он хорошо подходит для людей, которые уже получили базовое представление о IRT.
- де Бек, Поль; Уилсон, Марк (2004). Модели ответов на пояснительные задания: обобщенный линейный и нелинейный подход . Спрингер. ISBN 978-0-387-40275-8 .
- В этом томе представлено комплексное введение в модели ответов на вопросы, предназначенное в основном для практиков, исследователей и аспирантов.
- Фокс, Жан-Поль (2010). Байесовское моделирование реакции предмета: теория и приложения . Спрингер. ISBN 978-1-4419-0741-7 .
- В этой книге обсуждается байесовский подход к моделированию ответов на вопросы. Книга будет полезна для людей (знакомых с IRT), заинтересованных в анализе данных ответов на задания с байесовской точки зрения.
Внешние ссылки
[ редактировать ]- «ИСТОРИЯ ТЕОРИИ РЕАКЦИИ НА ПРЕДМЕТ (до 1982 г.)» , Университет Иллинойса в Чикаго.
- Простое руководство по теории реагирования на предмет (PDF)
- Загрузка психометрического программного обеспечения
- Учебное пособие по ИРТ
- Учебное пособие по IRT: часто задаваемые вопросы
- Введение в ИРТ
- Стандарты образовательного и психологического тестирования
- Компьютерная программа IRT Command Language (ICL)
- Программы IRT от SSI, Inc.
- Анализ скрытых признаков и модели IRT
- Экспресс-анализ
- Программы анализа Раша от Winsteps
- Теория реакции предмета
- Бесплатное программное обеспечение IRT
- Пакеты IRT в R
- Поддержка IRT/EIRT в Lertap 5
- Визуальный IRT-анализ и отчетность с помощью Xcaliber