Дифференциальное функционирование элемента

Дифференциальное функционирование задания ( DIF ) — это статистическое свойство тестового задания, которое показывает, насколько вероятно, что люди из разных групп, обладающие схожими способностями, по-разному отреагируют на задание. Это проявляется, когда люди из разных групп с сопоставимым уровнем навыков не имеют одинаковой вероятности правильно ответить на вопрос. Существует два основных типа DIF: однородный DIF, при котором одна группа постоянно имеет преимущество над другой, и неравномерный DIF, при котором преимущество варьируется в зависимости от уровня способностей человека. ^[1] Наличие DIF требует проверки и оценки, но это не всегда означает предвзятость. Анализ DIF позволяет выявить неожиданное поведение элементов теста. Характеристика DIF предмета определяется не только разной вероятностью выбора конкретного ответа среди людей из разных групп. Скорее, DIF становится выраженным, когда люди из разных групп, обладающие одинаковыми истинными способностями , демонстрируют разные вероятности дать определенный ответ. Даже при наличии единообразной систематической ошибки разработчики тестов иногда прибегают к таким предположениям, что систематические ошибки DIF могут компенсировать друг друга из-за обширной работы, необходимой для ее устранения, что ставит под угрозу этику тестирования и закрепляет системные ошибки. ^[2] Обычными процедурами оценки DIF являются процедура Мантеля-Хэнзеля, логистическая регрессия , методы, основанные на теории ответа на предмет (IRT), и методы, основанные на подтверждающем факторном анализе (CFA). ^[3]

Описание

DIF относится к различиям в функционировании заданий между группами, часто демографическими, которые совпадают по скрытому признаку или, в более общем плане, по атрибуту, измеряемому с помощью заданий или теста. ^[4]^[5] Важно отметить, что при проверке элементов на DIF группы должны быть сопоставлены по измеряемому признаку, иначе это может привести к неточному обнаружению DIF. Чтобы получить общее представление о DIF или систематической ошибке измерения, рассмотрим следующий пример, предложенный Остерлиндом и Эверсоном (2009). ^[6] В этом случае Y относится к реакции на конкретный тест, который определяется скрытой конструкцией измеряемой . Скрытая конструкция, представляющая интерес, называется тета (θ), где Y — индикатор θ, который можно представить с точки зрения распределения вероятностей Y по θ с помощью выражения f (Y)|θ . Следовательно, ответ Y обусловлен скрытым признаком (θ). Поскольку DIF исследует различия в условных вероятностях Y между группами, давайте обозначим группы как «эталонные» и «фокусные». Хотя обозначение не имеет значения, типичная практика в литературе состоит в том, чтобы обозначить референтную группу как группу, которая, как предполагается, имеет преимущество, тогда как фокусная группа относится к группе, которая, как ожидается, окажется в невыгодном положении по результатам теста. ^[3] Поэтому, учитывая функциональную связь $f(Y)|\theta$ и в предположении, что существуют идентичные распределения ошибок измерения для контрольной и фокусной групп, можно заключить, что при нулевой гипотезе :

f(Y=1|\theta ,G=r)=f(Y=1|\theta ,G=f)

где G соответствует группирующей переменной, «r» — референтной группе, а «f» — фокусной группе. Это уравнение представляет собой случай, когда DIF отсутствует. В этом случае отсутствие DIF определяется тем, что условное распределение вероятностей Y не зависит от принадлежности к группе. Для иллюстрации рассмотрим задание с вариантами ответа 0 и 1, где Y = 0 указывает на неправильный ответ, а Y = 1 указывает на правильный ответ. Вероятность правильного ответа на вопрос одинакова для членов обеих групп. Это указывает на отсутствие смещения DIF или предмета, поскольку члены контрольной и фокусной группы с одинаковыми базовыми способностями или качествами имеют одинаковую вероятность правильного ответа. Таким образом, не существует предвзятости или невыгодного положения одной группы по сравнению с другой.Рассмотрим случай, когда условная вероятность Y не одинакова для референтной и фокусной групп. Другими словами, члены разных групп с одинаковыми чертами или уровнем способностей имеют неравные распределения вероятностей по Y. После контроля θ возникает четкая зависимость между членством в группе и производительностью по заданию. Для дихотомические вопросы, это говорит о том, что, когда фокусная и референтная группы находятся в одном и том же месте на θ, существует разная вероятность получить правильный ответ или одобрение вопроса. Следовательно, группа с более высокой условной вероятностью правильного ответа на задание — это группа, имеющая преимущество при использовании тестового задания. Это говорит о том, что тестовое задание является предвзятым и функционирует по-разному для групп, поэтому демонстрирует DIF.Важно проводить различие между DIF или систематической ошибкой измерения и обычными групповыми различиями. В то время как групповые различия указывают на различное распределение баллов по Y, DIF явно включает в себя обусловленность θ. Например, рассмотрим следующее уравнение:

p(Y=1|G=g)\neq p(Y=1)

Это указывает на то, что оценка экзаменуемого зависит от группировки, поэтому наличие информации о членстве в группе меняет вероятность правильного ответа. Следовательно, если группы различаются по θ, а производительность зависит от θ, то приведенное выше уравнение предполагает смещение задания даже при отсутствии DIF. По этой причине в литературе по измерениям обычно признается, что различий по Y, обусловленных только членством в группе, недостаточно для установления систематической ошибки. ^[7]^[8]^[9] Фактически, различия в θ или способностях являются общими для разных групп и составляют основу для многих исследований. Не забудьте установить смещение или DIF, группы должны быть сопоставлены по θ, а затем продемонстрировать дифференциальные вероятности по Y как функцию членства в группе.

Формы

Равномерный DIF — это простейший тип DIF, при котором величина условной зависимости относительно инвариантна в континууме скрытых признаков (θ). Интересующий предмет последовательно дает одной группе преимущество на всех уровнях способностей θ. ^[10] В рамках теории ответа на задание (IRT) об этом будет свидетельствовать, когда обе характеристические кривые задания (ICC) одинаково различаются, но демонстрируют различия в параметрах сложности (т. е. a _r = a _f и b _r < b _f ), как показано на рисунке. 1. ^[11] Однако неравномерный DIF представляет собой интересный случай. Вместо постоянного преимущества, предоставляемого референтной группе в континууме способностей, условная зависимость перемещается и меняет направление в разных местах θ-континуума. ^[12] Например, предмет может дать референтной группе незначительное преимущество на нижнем конце континуума и большое преимущество на более высоком конце. Кроме того, в отличие от единого DIF, задание может одновременно различаться по различению для двух групп, а также различаться по сложности (т. е. a _r ≠ a _f и b _r < b _f ). Еще более сложным является «пересечение» неоднородного DIF. Как показано на рисунке 2, это происходит, когда элемент дает преимущество референтной группе на одном конце континуума θ и отдает предпочтение фокусной группе на другом конце. Различия в ICC указывают на то, что испытуемые из двух групп с одинаковым уровнем способностей имеют неравную вероятность правильного ответа на задание. Когда кривые разные, но не пересекаются, это свидетельствует об однородности DIF. Однако если ICC пересекаются в любой точке шкалы θ, это свидетельствует о неоднородности DIF.

Процедуры обнаружения DIF

Мантель-Хензель

Распространенной процедурой обнаружения DIF является подход Мантеля-Хэнзеля (MH). ^[13] Процедура MH представляет собой подход, основанный на таблице непредвиденных обстоятельств хи-квадрат , который исследует различия между контрольной и фокусной группами по всем пунктам теста, один за другим. ^[14] Континуум способностей, определяемый общим количеством баллов за тесты, делится на k интервалов, которые затем служат основой для сопоставления членов обеих групп. ^[15] 2 x 2 Таблица непредвиденных обстоятельств используется в каждом интервале k, сравнивая обе группы по отдельному элементу. Строки таблицы непредвиденных обстоятельств соответствуют членству в группах (эталонных или фокусных), а столбцы соответствуют правильным или неправильным ответам. В следующей таблице представлена общая форма для одного предмета в k -м интервале способностей.

Коэффициент шансов

Следующим шагом в расчете статистики MH является использование данных из таблицы непредвиденных обстоятельств для получения отношения шансов для двух групп по интересующему элементу в определенном интервале k . Это выражается через p и q, где p представляет q долю правильных значений, а — долю неправильных как для контрольной (R), так и для фокусной (F) групп. Для процедуры MH полученное отношение шансов обозначается α с возможным значением в диапазоне от 0 до ∞. Значение α , равное 1,0, указывает на отсутствие DIF и, следовательно, на схожие показатели обеих групп. Значения выше 1,0 предполагают, что контрольная группа справилась лучше или нашла задание менее сложным, чем фокусная группа. С другой стороны, если полученное значение меньше 1,0, это свидетельствует о том, что задание было менее трудным для фокусной группы. ^[8] Используя переменные из приведенной выше таблицы непредвиденных обстоятельств, расчет выглядит следующим образом: α = (p _Rk / q _Rk ) ⁄ (p _Fk / q _Fk ) = (A _k / (A _k + B _k )) / ( B _k / ( A _k + B _k )) ⁄ ( C _k / ( C _k + D _k )) / ( D _k / ( C _k + D _k ) ) = (A _k / B _k ) ⁄ (C _k / D _k ) = А _k D _k ⁄ B _k C _kПриведенные выше вычисления относятся к отдельному предмету в одном интервале способностей. Оценка совокупности α может быть расширена, чтобы отразить общее отношение шансов для всех интервалов способностей k для конкретного предмета. Общая оценка отношения шансов обозначается α _MH и может быть вычислена по следующему уравнению: α _МХ = Σ _AkDk BkCk / _Nk ) ⁄ Σ _Nk ₍ / ₎ (
для всех значений k и где N _k представляет собой общий размер выборки в k-м интервале.Полученный α _MH часто стандартизируют посредством логарифмического преобразования, центрируя значение около 0. ^[16] Новая преобразованная оценка MH _D-DIF вычисляется следующим образом: MH _D-DIF = -2,35ln(α _MH ) Таким образом, полученное значение 0 будет указывать на отсутствие DIF. При изучении уравнения важно отметить, что знак минус меняет интерпретацию значений меньше или больше 0. Значения меньше 0 указывают на преимущество референтной группы, тогда как значения больше 0 указывают на преимущество фокусной группы.

Теория ответа на предмет

Теория ответа на предмет (IRT) — еще один широко используемый метод оценки DIF. IRT позволяет критически проанализировать ответы на конкретные элементы теста или измерения. Как отмечалось ранее, DIF исследует вероятность правильного ответа или одобрения предмета, обусловленного скрытой чертой или способностью. Поскольку IRT исследует монотонную связь между ответами и скрытыми чертами или способностями, это подходящий подход для изучения DIF. ^[17]Три основных преимущества использования IRT при обнаружении DIF: ^[18]

По сравнению с классической теорией тестирования , оценки параметров IRT не так сильно искажаются характеристиками выборки.
Статистические свойства элементов могут быть выражены с большей точностью, что повышает точность интерпретации DIF между двумя группами.
Эти статистические свойства элементов можно выразить графически, что улучшает интерпретируемость и понимание того, как элементы по-разному функционируют в разных группах.

Что касается DIF, оценки параметров элемента вычисляются и графически исследуются с помощью характеристических кривых элемента (ICC), также называемых линиями трассировки или функциями отклика элемента (IRF). После проверки ICC и последующего подозрения на DIF применяются статистические процедуры для проверки различий между оценками параметров.ICC представляют собой математические функции взаимосвязи между положением в континууме скрытых черт и вероятностью определенного ответа. ^[19] Рисунок 3 иллюстрирует эту взаимосвязь как логистическую функцию . Лица с более низким уровнем скрытой черты или с меньшими способностями имеют меньшую вероятность получить правильный ответ или одобрить предмет, особенно по мере увеличения сложности. Таким образом, те, у кого выше скрытое качество или способности, имеют больше шансов на правильный ответ или одобрение предмета. Например, в опроснике по депрессии люди с сильной депрессией будут иметь большую вероятность одобрить какой-либо предмет, чем люди с более низкой депрессией. Точно так же люди с более высокими математическими способностями имеют большую вероятность правильного решения математического задания, чем люди с меньшими способностями. Другой критический аспект ICC относится к переломному моменту . Это точка на кривой, где вероятность определенного ответа равна 0,5 и также представляет собой максимальное значение наклона . ^[20] Эта точка перегиба указывает, где вероятность правильного ответа или одобрения пункта становится больше 50%, за исключением случая, когда параметр c больше 0, что тогда помещает точку перегиба в 1 + c/2 (описание будет следовать ниже). Точка перегиба определяется сложностью предмета, которая соответствует значениям континуума способностей или скрытых черт. ^[21] Следовательно, для легкого предмета эта точка перегиба может быть ниже в континууме способностей, тогда как для сложного предмета она может быть выше по той же шкале.

Прежде чем представить статистические процедуры для проверки различий параметров элементов, важно сначала обеспечить общее понимание различных моделей оценки параметров и связанных с ними параметров. К ним относятся одно-, двух- и трехпараметрические логистические (PL) модели. Все эти модели предполагают одну скрытую черту или способность подчиненного. Все три модели имеют параметр сложности предмета, обозначенный b . Для моделей 1PL и 2PL параметр b соответствует точке перегиба шкалы способностей, как упоминалось выше. В случае модели 3PL перегиб соответствует 1 + c/2, где c — нижняя асимптота (обсуждается ниже). Теоретически значения сложности могут варьироваться от -∞ до +∞; однако на практике они редко превышают ±3. Более высокие значения указывают на более сложные тестовые задания. Элементы с низкими параметрами b являются легко проверяемыми объектами. ^[22] Еще одним оцениваемым параметром является параметр дискриминации, . обозначенный Этот параметр относится к способности предмета различать людей. Параметр a оценивается в моделях 2PL и 3PL. В случае модели 1PL этот параметр ограничен равным между группами. Применительно к ICC параметром a является наклон точки перегиба. Как упоминалось ранее, наклон максимален в точке перегиба. Параметр a , как и параметр b , может находиться в диапазоне от -∞ до +∞; однако типичные значения меньше 2. В этом случае более высокое значение указывает на большую дискриминацию между людьми. ^[23] Модель 3PL имеет дополнительный параметр, называемый параметром угадывания или псевдослучайности, и обозначается c . Это соответствует нижней асимптоте , которая, по сути, дает возможность человеку правильно выполнить задание среднего или сложного уровня, даже если у него низкие способности. Значения c варьируются от 0 до 1, однако обычно опускаются ниже 0,3. ^[24]При применении статистических процедур для оценки DIF a и b особый интерес представляют параметры (дискриминация и сложность). Однако предположим, что использовалась модель 1PL, в которой параметры a ограничены равными для обеих групп, оставляя только оценку параметров b . После изучения ICC наблюдается очевидная разница в параметрах b для обеих групп. Используя метод, аналогичный t-критерию Стьюдента , следующий шаг — определить, является ли разница в сложности статистически значимой. По нулевой гипотезе ЧАС ₀ : б _{р знак} равно б _жЛорд (1980) предоставляет легко вычисляемую и нормально распределенную тестовую статистику. d = (б _р - б _ж ) / SE (б _р - б _ж ) Стандартная ошибка разницы между параметрами b рассчитывается по формуле √[SE(б _р )] ² + √[SE(b _f )] ²

Статистика Вальда

Однако чаще всего модель 2PL или 3PL является более подходящей, чем подгонка модели 1PL к данным, и поэтому оба параметра a и b должны быть проверены на предмет DIF. Лорд (1980) предложил другой метод проверки различий в параметрах a и b , где параметры c ограничиваются одинаковыми значениями во всех группах. Этот тест дает статистику Вальда , которая соответствует распределению хи-квадрат. В этом случае проверяемая нулевая гипотеза равна ЧАС ₀ : а _р знак равно а _ж и б _{р знак} равно б _ж .Сначала для каждой группы рассчитывается ковариационная матрица 2 x 2 оценок параметров, которые представлены S _r и S _f для контрольной и фокусной групп. Эти ковариационные матрицы вычисляются путем инвертирования полученных информационных матриц.Далее различия между оцененными параметрами помещаются в вектор 2 x 1 и обозначаются как V' знак равно (а _р - а _ж , б _р - б _ж ) Затем ковариационная матрица S оценивается путем суммирования S _r и S _f .Используя эту информацию, статистика Вальда рассчитывается следующим образом: х ² = V'S ⁻¹В который оценивается как 2 степени свободы .

Тест отношения правдоподобия

Тест отношения правдоподобия — это еще один метод оценки DIF, основанный на IRT. Эта процедура предполагает сравнение соотношения двух моделей. В модели (M _c ) параметры элемента должны быть равны или инвариантны между эталонной и фокусной группами. В модели (M _v ) параметры изделия могут изменяться свободно. ^[25] Функция правдоподобия при M _c обозначается (L _c ), а функция правдоподобия при M _v обозначается (L _v ). Элементы, которые должны быть одинаковыми, служат опорными элементами для этой процедуры, в то время как элементы, подозреваемые в DIF, могут свободно варьироваться. Используя опорные элементы и позволяя варьировать остальные параметры элемента, можно одновременно оценить несколько элементов на предмет DIF. ^[26] Однако, если отношение правдоподобия указывает на потенциальную DIF, будет целесообразным провести постатейный анализ, чтобы определить, какие позиции, если не все, содержат DIF. Отношение правдоподобия двух моделей вычисляется по формуле Г ² = 2ln[L _v / L _c ] Альтернативно, соотношение может быть выражено как Г ² = -2ln[L _c / L _v ] где L _v и L _c инвертируются, а затем умножаются на -2ln.Г ² примерно соответствует распределению хи-квадрат, особенно для более крупных выборок. Следовательно, она оценивается степенями свободы, которые соответствуют количеству ограничений, необходимых для получения модели с ограничениями из свободно меняющейся модели. ^[27] Например, если используется модель 2PL и оба параметра a и b могут свободно изменяться в зависимости от M _v , и эти же два параметра ограничены в пределах M _c , тогда соотношение оценивается как 2 степени свободы.

Логистическая регрессия

Подходы логистической регрессии к обнаружению DIF включают проведение отдельного анализа для каждого элемента. Независимыми переменными, включенными в анализ, являются членство в группе, переменная соответствия способностей, обычно это общий балл, и термин взаимодействия между ними. Зависимая переменная, представляющая интерес, — это вероятность или вероятность получения правильного ответа или одобрения какого-либо вопроса. Поскольку интересующий результат выражается в терминах вероятностей, оценка максимального правдоподобия . подходящей процедурой является ^[28] Этот набор переменных затем можно выразить следующим уравнением регрессии:

Y = β ₀ + β ₁ М + β ₂ Г + β ₃ МГ

где β ₀ соответствует точке пересечения или вероятности ответа, когда M и G равны 0, а остальные β _{соответствуют} весовым коэффициентам для каждой независимой переменной. Первая независимая переменная, M, представляет собой переменную соответствия, используемую для связывания людей по способностям, в данном случае общий балл по тесту, аналогичный тому, который используется в процедуре Мантеля-Хэнзеля. Переменная членства в группе обозначается G и в случае регрессии представляется через фиктивные закодированные переменные. Последний член MG соответствует взаимодействию двух вышеупомянутых переменных.Для этой процедуры переменные вводятся иерархически. Следуя приведенной выше структуре уравнения регрессии, переменные вводятся в следующей последовательности: переменная соответствия M, переменная группировки G и переменная взаимодействия MG. Определение DIF производится путем оценки полученной статистики хи-квадрат с двумя степенями свободы. Дополнительно проверяется значимость оценки параметра.По результатам логистической регрессии DIF будет указан, если люди, сопоставимые по способностям, имеют значительно разные вероятности ответа на задание и, следовательно, разные кривые логистической регрессии. И наоборот, если кривые для обеих групп одинаковы, то элемент является несмещенным и, следовательно, DIF отсутствует. С точки зрения однородного и неравномерного DIF, если точки пересечения и совпадающие параметры переменных для обеих групп не равны, то существует свидетельство однородного DIF. Однако если имеется ненулевой параметр взаимодействия, это указывает на неоднородность DIF. ^[29]

Соображения

Размер выборки

Первое соображение касается вопросов размера выборки, особенно в отношении референтных и фокусных групп. До проведения любого анализа обычно известна информация о количестве людей в каждой группе, например, количество мужчин/женщин или членов этнических/расовых групп. Однако вопрос более тесно связан с тем, достаточно ли количества людей в группе, чтобы иметь достаточную статистическую мощность для выявления DIF. В некоторых случаях, таких как этническая принадлежность, могут быть свидетельства неравного размера групп, например, белые представляют гораздо большую групповую выборку, чем каждая представленная отдельная этническая группа. Поэтому в таких случаях может оказаться целесообразным изменить или скорректировать данные таким образом, чтобы группы, сравниваемые по DIF, были фактически равными или близкими по размеру. Фиктивное кодирование или перекодирование – это обычная практика, используемая для корректировки различий в размерах контрольной и фокусной групп. В этом случае все небелые этнические группы могут быть сгруппированы вместе, чтобы иметь относительно равный размер выборки для контрольной и фокусной групп. Это позволит провести сравнение функционирования элемента «большинство/меньшинство». Если не вносить изменения и не выполнять процедуры DIF, статистической мощности может не хватить для идентификации DIF, даже если DIF существует между группами.Другая проблема, связанная с размером выборки, напрямую связана со статистической процедурой, используемой для обнаружения DIF. Помимо соображений о размере выборки референтных и фокусных групп, должны быть соблюдены определенные характеристики самой выборки, чтобы соответствовать предположениям каждого статистического теста, используемого при обнаружении DIF. Например, при использовании подходов IRT могут потребоваться образцы большего размера, чем требуется для процедуры Мантеля-Хэнзеля. Это важно, поскольку исследование размера группы может подтолкнуть к использованию одной процедуры вместо другой. В рамках подхода логистической регрессии особые значения и выбросы с использованием заемных средств вызывают особую озабоченность и должны быть проверены до обнаружения DIF. Кроме того, как и при любом анализе, необходимо соблюдать статистические предположения. Некоторые процедуры более устойчивы к незначительным нарушениям, а другие — менее. Таким образом, перед применением каких-либо процедур DIF следует изучить характер распределения ответов выборки.

Предметы

Необходимо учитывать определение количества предметов, используемых для обнаружения DIF. Не существует стандарта относительно того, сколько элементов следует использовать для обнаружения DIF, поскольку это значение меняется от исследования к исследованию. В некоторых случаях может оказаться целесообразным проверить все элементы на предмет DIF, тогда как в других в этом может не быть необходимости. Если только некоторые элементы подозреваются в DIF и имеют адекватные обоснования, то, возможно, более целесообразным будет протестировать именно эти элементы, а не весь набор. Однако зачастую трудно просто предположить, какие элементы могут быть проблематичными. По этой причине часто рекомендуется одновременно проверять все тестовые задания на предмет DIF. Это предоставит информацию обо всех пунктах, проливая свет на проблемные вопросы, а также на те, которые функционируют одинаково как для справочной, так и для фокусных групп. Что касается статистических тестов, некоторые процедуры, такие как тестирование отношения правдоподобия IRT, требуют использования якорных элементов. Некоторые элементы должны быть одинаковыми во всех группах, в то время как элементы, подозреваемые в DIF, могут свободно варьироваться. В этом случае только подмножество будет идентифицировано как элементы DIF, а остальные будут служить группой сравнения для обнаружения DIF. После того как элементы DIF идентифицированы, опорные элементы также можно проанализировать, ограничив затем исходные элементы DIF и позволив исходным опорным элементам свободно изменяться. Таким образом, кажется, что тестирование всех элементов одновременно может быть более эффективной процедурой. Однако, как отмечалось, в зависимости от реализованной процедуры используются разные методы выбора элементов DIF.Помимо определения количества элементов, используемых при обнаружении DIF, дополнительную важность имеет определение количества элементов во всем тесте или измерении. Типичная рекомендация, как отметил Zumbo (1999), — иметь минимум 20 пунктов. Обоснование наличия минимум 20 пунктов напрямую связано с формированием критериев соответствия. Как отмечалось в предыдущих разделах, общий балл по тесту обычно используется как метод сопоставления людей по способностям. Общий балл теста обычно делится на 3–5 уровней способностей (k), которые затем используются для сопоставления людей по способностям перед процедурами анализа DIF. Использование минимум 20 элементов позволяет добиться большей вариативности в распределении баллов, что приводит к более значимым группам уровней способностей. Хотя психометрические свойства инструмента должны быть оценены до его использования, важно, чтобы валидность и надежность инструмента должны быть адекватными. Тестовые задания должны точно отражать интересующую конструкцию, чтобы получить значимые группы уровней способностей. Конечно, не хочется завышать коэффициенты надежности простым добавлением лишних элементов. Ключевым моментом является наличие валидной и надежной меры с достаточным количеством элементов для создания значимых групп соответствия. Гадерманн и др. (2012), ^[30] Ревель и Зинбарг (2009), ^[31] и Джон и Сото (2007) ^[32] предложить больше информации о современных подходах к структурной проверке и более точных и подходящих методах оценки надежности.

Баланс между статистикой и рассуждениями

Как и во всех психологических исследованиях и психометрических оценках, статистика играет жизненно важную роль, но ни в коем случае не должна быть единственной основой для принимаемых решений и выводов. Обоснованное суждение имеет решающее значение при оценке статей для DIF. Например, в зависимости от статистической процедуры, используемой для обнаружения DIF, могут быть получены разные результаты. Некоторые процедуры более точны, другие — менее. Например, процедура Мантеля-Хензеля требует от исследователя построить уровни способностей на основе общих результатов тестов, тогда как IRT более эффективно распределяет людей по скрытым чертам или континууму способностей. Таким образом, одна процедура может указывать DIF для определенных позиций, а другая – нет.

Другая проблема заключается в том, что иногда может указываться DIF, но нет четкой причины его существования. Здесь в игру вступает обоснованное суждение. Особенно если понять, почему возникает однородный и неравномерный DIF. ^[33] Исследователь должен использовать здравый смысл, чтобы извлечь смысл из анализа DIF. Недостаточно сообщить, что элементы функционируют по-разному в группах; должно быть качественное обоснование того, почему это происходит.

Равномерный DIF возникает, когда одна группа имеет постоянное преимущество по сравнению с другой на всех уровнях способностей. Этот тип предвзятости часто можно устранить, используя отдельные нормы тестирования для разных групп, чтобы обеспечить справедливость оценки. С другой стороны, неравномерный DIF является более сложным, поскольку преимущество варьируется в зависимости от уровня способностей человека. Такие факторы, как социально-экономический статус, культурные различия, языковые барьеры и неравенство в доступе к знаниям, могут способствовать неоднородности DIF. Выявление и устранение неоднородного DIF требует более глубокого понимания лежащих в его основе когнитивных процессов и может потребовать индивидуального вмешательства для обеспечения справедливой практики оценки.

В исследованиях DIF обычным явлением является обнаружение определенных предметов, демонстрирующих DIF, что указывает на потенциальные проблемы, требующие тщательного изучения. Однако доказательства DIF не означают автоматически, что весь тест является несправедливым. Вместо этого это сигнализирует о том, что некоторые элементы могут быть необъективными, что требует внимания для обеспечения честности и справедливости теста для всех экзаменуемых. Выявление элементов с помощью DIF дает возможность просмотреть и, возможно, пересмотреть или удалить проблемные элементы, обеспечивая справедливую практику оценки. Таким образом, анализ DIF служит ценным инструментом для анализа статей, особенно если он дополнен качественным исследованием причинных факторов.

Статистическое программное обеспечение

Ниже приведены распространенные статистические программы, способные выполнять обсуждаемые здесь процедуры. Нажав на список статистических пакетов , вы будете перенаправлены на полный список программного обеспечения с открытым исходным кодом, общедоступного, бесплатного и проприетарного статистического программного обеспечения.

Процедура Мантеля-Хэнзеля

СПСС
САС
Был
R (например, 'difR' ^[34] упаковка)
Систат
Потеря глины 5

Процедуры на основе IRT

КРУГ-МГ
МУЛЬТИЛОГ
ПАРСКАЛЬ
ТЕСТФАКТ
ЭКСИРТ
R (например, 'difR' ^[34] или «мирт» ^[35] упаковка)
ИРТПРО

Логистическая регрессия

СПСС
САС
Был
R (например, 'difR' ^[34] упаковка)
Систат

См. также

Инвариантность измерений

Ссылки

^ Национальный совет по измерению в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorD . Архивировано 2017–07. -22 в Wayback Machine
^ Де Лео, Джозеф А.; Ван Дам, Николас Т.; Хобкирк, Андреа Л.; Эрливайн, Митч (1 апреля 2011 г.). «Изучение предвзятости в шкале поиска импульсивных ощущений (ImpSS) с использованием дифференциального функционирования предметов (DIF) - анализ ответов на предметы» . Личность и индивидуальные различия . 50 (5): 570–576. дои : 10.1016/j.paid.2010.11.030 . ISSN 0191-8869 .
^ Зумбо, Б.Д. (2007). Три поколения анализа функционирования дифференциального элемента (DIF): рассмотрение того, где оно было, где оно находится сейчас и куда оно движется. Ежеквартальный журнал языковой оценки, 4, 223–233.
^ Камилли, Г. (2006). Справедливость теста: В RL (ред.), Образовательные измерения (4-е изд., стр. 220–256). Вестпорт, Коннектикут: Американский совет по образованию.
^ Холланд, П.В., и Вайнер, Х. (1993). Дифференциальное функционирование элемента. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
^ Остерлинд, SJ и Эверсон, HT (2009). Дифференциальное функционирование элемента. Таузенд-Оукс, Калифорния: Издательство Sage.
^ Акерман, Т. (1992). Дидактическое объяснение предвзятости заданий, их влияния и достоверности заданий с многомерной точки зрения. Журнал образовательных измерений, 29, 674–691.
^ Лорд, FM (1980). Применение теории реагирования на задания к практическим задачам тестирования. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
^ Миллсап, RE, и Эверсон, HT (1993). Методологический обзор: Статистические подходы к оценке систематической ошибки измерений. Прикладные психологические измерения, 17(4), 297–334.
^ Уокер, К. (2011). Что такое ДИФ? Почему дифференциальный анализ функционирования элементов является важной частью разработки и проверки инструментов. Журнал психопедагогической оценки, 29, 364–376.
^ Мелленберг, GJ (1982). Модели таблицы непредвиденных обстоятельств для оценки предвзятости элемента. Журнал статистики образования, 7, 105–118.
^ Уокер, К.М., Беретвас, С.Н., Акерман, Т.А. (2001). Исследование кондиционирующих переменных, используемых в компьютерном адаптивном тестировании DIF. Прикладные измерения в образовании, 14, 3–16.
^ Мантел, Н., и Хензель, В. (1959). Статистические аспекты анализа данных ретроспективных исследований заболеваний. Журнал Национального института рака, 22, 719–748.
^ Мараскулио, Лос-Анджелес, и Слотер, RE (1981). Статистические процедуры для выявления возможных источников систематической ошибки по элементам на основе статистики 2 x 2. Журнал образовательных измерений, 18, 229–248.
^ Холланд, PW, и Тайер, DT (1988). Дифференциальная производительность предметов и процедура Мантеля-Хэнзеля. В Х. Вайнере и Х. И. Брауне (ред.), Проверка достоверности (стр. 129–145). Хиллсдейл, Нью-Джерси: Эрлбаум.
^ Доранс, Нью-Джерси, и Холланд, PW (1993). Обнаружение и описание DIF: Мантель-Хензель и стандартизация. В книге П. У. Холланда и Х. Вайнера (ред.), «Дифференциальное функционирование предметов» (стр. 35–66). Хиллсдейл, Нью-Джерси: Эрлбаум.
^ Стейнберг Л. и Тиссен Д. (2006). Использование размеров эффекта для отчетов об исследованиях: примеры использования теории реагирования на предмет для анализа дифференцированного функционирования предметов. Психологические методы, 11 (4), 402–415.
^ Камилли, Г., и Шепард, Л. (1994). Методы выявления предвзятых тестовых заданий . Таузенд-Оукс, Калифорния: Сейдж.
^ Рейз, С.П., Эйнсворт, АТ, и Хэвиленд, М.Г. (2005). Теория реакции на предмет: основы, применение и перспективы психологических исследований. Современные направления психологической науки, 14, 95–101.
^ Эделен, Миссури, Рив, BB (2007). Применение моделирования теории ответов на вопросы (IRT) для разработки, оценки и уточнения анкет. Исследование качества жизни, 16, 5–18.
^ ДеМарс, К. (2010). Теория ответа на предмет. Нью-Йорк: Оксфорд Пресс.
^ Харрис, Д. (1989). Сравнение 1-, 2-, 3-параметрических моделей IRT. Образовательные измерения: проблемы и практика , 8, 35–41.
^ Бейкер, FB (2001). Основы теории реагирования на предметы . Информационный центр ERIC по оценке и анализу.
^ Бирнбаум, А. (1968). Некоторые модели скрытых черт и их использование для определения способностей испытуемого. Часть 5 в Ф. М. Лорде и М. Р. Новике. Статистические теории результатов умственных тестов . Ридинг, Массачусетс: Аддисон-Уэсли
^ Тиссен, Д., Стейнберг, Л., Джеррард, М. (1986). За пределами групповых различий: концепция предвзятости. Психологический вестник, 99, 118–128.
^ ИРТПРО: Руководство пользователя . (2011). Линкольнвуд, Иллинойс: Scientific Software International, Inc.
^ Тиссен Д., Стейнберг Л. и Вайнер Х. (1993). Выявление дифференциального функционирования объекта с использованием параметров моделей реагирования объекта. В книге П. У. Холланда и Х. Вайнера (ред.), «Дифференциальное функционирование предметов» (стр. 67–113). Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
^ Бок, Р.Д. (1975). Многомерные статистические методы . Нью-Йорк: МакГроу-Хилл.
^ Сваминатан, Х., и Роджерс, Х.Дж. (1990). Обнаружение дифференциального функционирования товара с помощью процедур логистической регрессии. Журнал образовательных измерений, 27, 361–370.
^ Гадерманн, А., М., Ган, М., и Зумбо, Б.Д. (2012). Оценка порядковой надежности данных ответов типа Лайкерта и порядковых элементов: концептуальное, эмпирическое и практическое руководство. Практическая оценка, исследования и оценка, 17 (3), 1–13.
^ Ревелл, В., и Зинбарг, Р.Э. (2009). Коэффициенты альфа, бета, омега и GLB: Комментарии к статье Сийтсма. Психометрика, 74(1), 145–154.
^ Джон, ОП, и Сото, CJ (2007). Важность достоверности: надежность и процесс проверки конструкции. В Р. В. Робинсе, Р. К. Фрейли и Р. Ф. Крюгере (ред.), Справочник по методам исследования в психологии личности (стр. 461–494). Нью-Йорк, штат Нью-Йорк: Издательство Кембриджского университета.
^ Холланд, PW, и Тайер, DT (1988). Дифференциальная производительность предметов и процедура Мантеля-Хэнзеля. В Х. Вайнере и Х. И. Брауне (ред.), Проверка достоверности (стр. 129–145). Лоуренс Эрлбаум Ассошиэйтс, Инк.
^ Перейти обратно: ^а ^б ^с Магис, Дэвид; Беланд, Себастьен; Тюрлинкс, Фрэнсис; Де Бек, Пол (2010). «Общая структура и пакет R для обнаружения дихотомического дифференциального функционирования элементов» . Методы исследования поведения . 42 (3): 847–862. дои : 10.3758/BRM.42.3.847 . ПМИД 20805607 .
^ Чалмерс, Р.П. (2012). «mirt: Пакет многомерной теории реагирования на элементы для среды R» . Журнал статистического программного обеспечения . 48 (6): 1–29. дои : 10.18637/jss.v048.i06 .

[1] Национальный совет по измерению в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorD . Архивировано 2017–07. -22 в Wayback Machine

[2] Де Лео, Джозеф А.; Ван Дам, Николас Т.; Хобкирк, Андреа Л.; Эрливайн, Митч (1 апреля 2011 г.). «Изучение предвзятости в шкале поиска импульсивных ощущений (ImpSS) с использованием дифференциального функционирования предметов (DIF) - анализ ответов на предметы» . Личность и индивидуальные различия . 50 (5): 570–576. дои : 10.1016/j.paid.2010.11.030 . ISSN 0191-8869 .

[3] Зумбо, Б.Д. (2007). Три поколения анализа функционирования дифференциального элемента (DIF): рассмотрение того, где оно было, где оно находится сейчас и куда оно движется. Ежеквартальный журнал языковой оценки, 4, 223–233.

[4] Камилли, Г. (2006). Справедливость теста: В RL (ред.), Образовательные измерения (4-е изд., стр. 220–256). Вестпорт, Коннектикут: Американский совет по образованию.

[5] Холланд, П.В., и Вайнер, Х. (1993). Дифференциальное функционирование элемента. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.

[6] Остерлинд, SJ и Эверсон, HT (2009). Дифференциальное функционирование элемента. Таузенд-Оукс, Калифорния: Издательство Sage.

[7] Акерман, Т. (1992). Дидактическое объяснение предвзятости заданий, их влияния и достоверности заданий с многомерной точки зрения. Журнал образовательных измерений, 29, 674–691.

[8] Лорд, FM (1980). Применение теории реагирования на задания к практическим задачам тестирования. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.

[9] Миллсап, RE, и Эверсон, HT (1993). Методологический обзор: Статистические подходы к оценке систематической ошибки измерений. Прикладные психологические измерения, 17(4), 297–334.

[10] Уокер, К. (2011). Что такое ДИФ? Почему дифференциальный анализ функционирования элементов является важной частью разработки и проверки инструментов. Журнал психопедагогической оценки, 29, 364–376.

[11] Мелленберг, GJ (1982). Модели таблицы непредвиденных обстоятельств для оценки предвзятости элемента. Журнал статистики образования, 7, 105–118.

[12] Уокер, К.М., Беретвас, С.Н., Акерман, Т.А. (2001). Исследование кондиционирующих переменных, используемых в компьютерном адаптивном тестировании DIF. Прикладные измерения в образовании, 14, 3–16.

[13] Мантел, Н., и Хензель, В. (1959). Статистические аспекты анализа данных ретроспективных исследований заболеваний. Журнал Национального института рака, 22, 719–748.

[14] Мараскулио, Лос-Анджелес, и Слотер, RE (1981). Статистические процедуры для выявления возможных источников систематической ошибки по элементам на основе статистики 2 x 2. Журнал образовательных измерений, 18, 229–248.

[15] Холланд, PW, и Тайер, DT (1988). Дифференциальная производительность предметов и процедура Мантеля-Хэнзеля. В Х. Вайнере и Х. И. Брауне (ред.), Проверка достоверности (стр. 129–145). Хиллсдейл, Нью-Джерси: Эрлбаум.

[16] Доранс, Нью-Джерси, и Холланд, PW (1993). Обнаружение и описание DIF: Мантель-Хензель и стандартизация. В книге П. У. Холланда и Х. Вайнера (ред.), «Дифференциальное функционирование предметов» (стр. 35–66). Хиллсдейл, Нью-Джерси: Эрлбаум.

[17] Стейнберг Л. и Тиссен Д. (2006). Использование размеров эффекта для отчетов об исследованиях: примеры использования теории реагирования на предмет для анализа дифференцированного функционирования предметов. Психологические методы, 11 (4), 402–415.

[18] Камилли, Г., и Шепард, Л. (1994). Методы выявления предвзятых тестовых заданий . Таузенд-Оукс, Калифорния: Сейдж.

[19] Рейз, С.П., Эйнсворт, АТ, и Хэвиленд, М.Г. (2005). Теория реакции на предмет: основы, применение и перспективы психологических исследований. Современные направления психологической науки, 14, 95–101.

[20] Эделен, Миссури, Рив, BB (2007). Применение моделирования теории ответов на вопросы (IRT) для разработки, оценки и уточнения анкет. Исследование качества жизни, 16, 5–18.

[21] ДеМарс, К. (2010). Теория ответа на предмет. Нью-Йорк: Оксфорд Пресс.

[22] Харрис, Д. (1989). Сравнение 1-, 2-, 3-параметрических моделей IRT. Образовательные измерения: проблемы и практика , 8, 35–41.

[23] Бейкер, FB (2001). Основы теории реагирования на предметы . Информационный центр ERIC по оценке и анализу.

[24] Бирнбаум, А. (1968). Некоторые модели скрытых черт и их использование для определения способностей испытуемого. Часть 5 в Ф. М. Лорде и М. Р. Новике. Статистические теории результатов умственных тестов . Ридинг, Массачусетс: Аддисон-Уэсли

[25] Тиссен, Д., Стейнберг, Л., Джеррард, М. (1986). За пределами групповых различий: концепция предвзятости. Психологический вестник, 99, 118–128.

[26] ИРТПРО: Руководство пользователя . (2011). Линкольнвуд, Иллинойс: Scientific Software International, Inc.

[27] Тиссен Д., Стейнберг Л. и Вайнер Х. (1993). Выявление дифференциального функционирования объекта с использованием параметров моделей реагирования объекта. В книге П. У. Холланда и Х. Вайнера (ред.), «Дифференциальное функционирование предметов» (стр. 67–113). Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.

[28] Бок, Р.Д. (1975). Многомерные статистические методы . Нью-Йорк: МакГроу-Хилл.

[29] Сваминатан, Х., и Роджерс, Х.Дж. (1990). Обнаружение дифференциального функционирования товара с помощью процедур логистической регрессии. Журнал образовательных измерений, 27, 361–370.

[30] Гадерманн, А., М., Ган, М., и Зумбо, Б.Д. (2012). Оценка порядковой надежности данных ответов типа Лайкерта и порядковых элементов: концептуальное, эмпирическое и практическое руководство. Практическая оценка, исследования и оценка, 17 (3), 1–13.

[31] Ревелл, В., и Зинбарг, Р.Э. (2009). Коэффициенты альфа, бета, омега и GLB: Комментарии к статье Сийтсма. Психометрика, 74(1), 145–154.

[32] Джон, ОП, и Сото, CJ (2007). Важность достоверности: надежность и процесс проверки конструкции. В Р. В. Робинсе, Р. К. Фрейли и Р. Ф. Крюгере (ред.), Справочник по методам исследования в психологии личности (стр. 461–494). Нью-Йорк, штат Нью-Йорк: Издательство Кембриджского университета.

[33] Холланд, PW, и Тайер, DT (1988). Дифференциальная производительность предметов и процедура Мантеля-Хэнзеля. В Х. Вайнере и Х. И. Брауне (ред.), Проверка достоверности (стр. 129–145). Лоуренс Эрлбаум Ассошиэйтс, Инк.

[difR-34] Перейти обратно: ^а ^б ^с Магис, Дэвид; Беланд, Себастьен; Тюрлинкс, Фрэнсис; Де Бек, Пол (2010). «Общая структура и пакет R для обнаружения дихотомического дифференциального функционирования элементов» . Методы исследования поведения . 42 (3): 847–862. дои : 10.3758/BRM.42.3.847 . ПМИД 20805607 .

[mirt-35] Чалмерс, Р.П. (2012). «mirt: Пакет многомерной теории реагирования на элементы для среды R» . Журнал статистического программного обеспечения . 48 (6): 1–29. дои : 10.18637/jss.v048.i06 .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]