Теория обобщаемости
![]() | Эта статья включает список общих ссылок , но в ней отсутствуют достаточные соответствующие встроенные цитаты . ( Август 2012 г. ) |
Теория обобщаемости , или G-теория , представляет собой статистическую основу для концептуализации, исследования и разработки надежных наблюдений . Он используется для определения надежности (т. е. воспроизводимости) измерений в конкретных условиях. Это особенно полезно для оценки надежности оценок производительности. Первоначально он был представлен в работах Кронбаха Л.Дж. , Раджаратнама Н. и Глесера Г.К. (1963).
Обзор
[ редактировать ]В теории G источники вариаций называются фасетами . Фасеты аналогичны «факторам», используемым в дисперсионном анализе , и могут включать в себя людей, оценщиков, элементы/формы, время и настройки, среди других возможностей. Эти аспекты являются потенциальными источниками ошибок, и цель теории обобщаемости состоит в том, чтобы количественно оценить количество ошибок, вызванных каждым аспектом и взаимодействием аспектов. Полезность данных, полученных в ходе исследования G, решающим образом зависит от его дизайна. Поэтому исследователь должен тщательно обдумать способы, с помощью которых он/она надеется обобщить какие-либо конкретные результаты. Важно ли обобщать одну настройку на большее количество настроек? От одного оценщика к большему числу оценщиков? От одного набора предметов к большему набору предметов? Ответы на эти вопросы будут варьироваться от одного исследователя к другому и по-разному будут определять дизайн исследования G.
Помимо решения о том, какие аспекты исследователь обычно желает изучить, необходимо определить, какой аспект будет служить объектом измерения (например, систематическим источником дисперсии) для целей анализа. Остальные представляющие интерес аспекты тогда считаются источниками ошибок измерения. В большинстве случаев объектом измерения будет человек, которому присвоен номер/балл. В других случаях это может быть группа или исполнители, например команда или класс. В идеальном случае почти вся измеренная дисперсия будет отнесена к объекту измерения (например, индивидуальным различиям), и лишь незначительная часть дисперсии будет отнесена к остальным аспектам (например, оценщику, времени, обстановке).
Результаты исследования G также могут быть использованы для принятия решения или исследования D. В исследовании D мы можем задать гипотетический вопрос: «Что произойдет, если различные аспекты этого исследования будут изменены?» Например, компания, производящая безалкогольные напитки, может быть заинтересована в оценке качества нового продукта с помощью шкалы потребительских оценок. Используя исследование D, можно было бы оценить, как изменится согласованность оценок качества, если потребителям будет задано 10 вопросов вместо 2 или если 1000 потребителей оценят безалкогольный напиток вместо 100. Используя смоделированные исследования D, можно поэтому можно изучить, как коэффициенты обобщаемости (аналогичные коэффициентам надежности в классической теории испытаний ) будут меняться при различных обстоятельствах, и, следовательно, определить идеальные условия, при которых наши измерения будут наиболее надежными.
Сравнение с классической теорией тестов
[ редактировать ]В центре внимания классической теории испытаний (КТТ) находится определение погрешности измерения. Пожалуй, самой известной моделью СТТ является уравнение , где X — наблюдаемая оценка, T — истинная оценка, а e — ошибка измерения. Хотя e может представлять множество различных типов ошибок, таких как ошибки оценщика или прибора, CTT позволяет нам оценивать только один тип ошибок за раз. По сути, он объединяет все источники ошибок в один термин ошибки. Это может быть подходящим в контексте строго контролируемых лабораторных условий, но дисперсия является частью повседневной жизни. Например, в полевых исследованиях нереально ожидать, что условия измерения останутся постоянными. Теория обобщения признает и учитывает изменчивость условий оценки, которая может повлиять на измерения. Преимущество теории G заключается в том, что исследователи могут оценить, какая доля общей дисперсии результатов обусловлена отдельными факторами, которые часто различаются в оценке, такими как обстановка, время, предметы и оценщики.
Еще одно важное различие между теорией CTT и G заключается в том, что последний подход учитывает, как может измениться согласованность результатов, если для принятия абсолютных, а не относительных решений используется мера. Примером абсолютного или основанного на критериях решения может служить сравнение результатов теста человека с пороговым баллом для определения права на участие или диагноза (т. е. балл ребенка по тесту достижений используется для определения права на участие в программе для одаренных детей). ). Напротив, примером относительного или основанного на норме решения может быть ситуация, когда баллы человека по тесту используются либо для (а) определения относительного положения по сравнению с его/ее сверстниками (т. е. используется балл ребенка по субтесту по чтению). чтобы определить, к какой группе чтения он/она отнесен), или (б) провести внутрииндивидуальные сравнения (т. е. сравнение предыдущих и текущих результатов одного и того же человека). Тип решения, интересующего исследователя, будет определять, какую формулу следует использовать для расчета коэффициента обобщаемости (аналогично коэффициенту надежности в КТТ).
См. также
[ редактировать ]Ссылки
[ редактировать ]- Бреннан, РЛ (2001). Теория обобщаемости . Нью-Йорк: Springer-Verlag.
- Чиу, CWC (2001). Балльная оценка эффективности на основе суждений: теория обобщаемости . Нью-Йорк: Клювер.
- Крокер Л. и Алгина Дж. (1986). Введение в классическую и современную теорию тестирования . Нью-Йорк: Харкорт Брейс.
- Кронбах Л.Дж., Глезер Г.К., Нанда Х. и Раджаратнам Н. (1972). Надежность поведенческих измерений: теория обобщения оценок и профилей . Нью-Йорк: Джон Уайли.
- Кронбах Л.Дж., Нагешвари Р. и Глезер Г.К. (1963). Теория обобщения: либерализация теории надежности. Британский журнал статистической психологии, 16 , 137–163.
- Шраут, П.Е., и Фляйсс, Дж.Л. (1979). Внутриклассовые корреляции: использование при оценке надежности оценщиков. Психологический бюллетень, 86 (2), 420–428. дои: 10.1037/0033-2909.86.2.420
- Шавелсон, Р.Дж., и Уэбб, Нью-Мексико (1991). Теория обобщения: учебник для начинающих . Таузенд-Оукс, Калифорния: Сейдж.