Надежность (статистика)
В статистике и психометрии — надежность это общая последовательность меры. [1] Говорят, что мера имеет высокую надежность, если она дает аналогичные результаты в последовательных условиях:
«Это характеристика набора результатов тестов, которая связана с количеством случайных ошибок в процессе измерения, которые могут быть заложены в баллах. Результаты, которые являются высоконадежными, точны, воспроизводимы и последовательны от одного тестирования к другому. То есть, если бы процесс тестирования был повторен с группой тестируемых, для получения, по сути, были бы одни и те же результаты, обычно используются различные виды коэффициентов надежности со значениями в диапазоне от 0,00 (большая ошибка) до 1,00 (нет ошибки). укажите величину ошибки в баллах». [2]
Например, измерения роста и веса людей зачастую чрезвычайно надежны. [3] [4]
Типы
[ редактировать ]Существует несколько общих классов оценок надежности:
- Межэкспертная надежность оценивает степень согласия между двумя или более оценщиками в их оценках. Например, у человека болит живот, и все врачи ставят один и тот же диагноз. [5] : 71
- Надежность повторного тестирования оценивает степень постоянства результатов тестов от одного прохождения теста к другому. Измерения собираются у одного оценщика, который использует одни и те же методы или инструменты и одни и те же условия тестирования. [4] Сюда входит внутриоценочная надежность .
- Надежность между методами оценивает степень согласованности результатов тестов при наличии различий в используемых методах или инструментах. Это позволяет исключить межэкспертную надежность. Когда речь идет о формах , это можно назвать надежностью параллельных форм . [6]
- внутренней согласованности Надежность : оценивает согласованность результатов по всем элементам теста. [6]
Отличие от действительности
[ редактировать ]Надежность не подразумевает достоверность . То есть надежная мера, которая постоянно измеряет что-то, не обязательно измеряет то, что вы хотите измерить. Например, хотя существует множество надежных тестов конкретных способностей, не все из них подходят для прогнозирования, скажем, производительности труда.
Хотя надежность не подразумевает валидности , надежность накладывает ограничения на общую валидность теста. Тест, который не является абсолютно надежным, не может быть абсолютно валидным ни как средство измерения качеств человека, ни как средство прогнозирования баллов по критерию. Хотя надежный тест может предоставить полезную достоверную информацию, ненадежный тест не может быть действительным. [7]
Например, если набор весов постоянно измеряет вес объекта на 500 граммов больше истинного веса, то весы будут очень надежными, но недействительными (поскольку возвращаемый вес не является истинным весом). Чтобы масштаб был действительным, он должен возвращать истинный вес объекта. Этот пример демонстрирует, что совершенно надежная мера не обязательно действительна, но действительная мера обязательно должна быть надежной.
Отличие от воспроизводимости
[ редактировать ]Общая модель
[ редактировать ]На практике меры тестирования никогда не бывают абсолютно последовательными. Теории надежности испытаний были разработаны для оценки влияния несогласованности на точность измерений. Основной отправной точкой почти всех теорий надежности тестов является идея о том, что результаты тестов отражают влияние двух типов факторов: [7]
1. Факторы согласованности: стабильные характеристики личности или атрибута, который пытаются измерить.
2. Факторы несоответствия: особенности личности или ситуации, которые могут повлиять на результаты тестов, но не имеют ничего общего с измеряемым признаком.
Эти факторы включают в себя: [7]
- Временные, но общие характеристики личности: здоровье, утомляемость, мотивация, эмоциональное напряжение.
- Временные и специфические характеристики личности: понимание конкретного тестового задания, специфические приемы или приемы обращения с конкретным тестовым материалом, колебания памяти, внимания или точности.
- Аспекты ситуации тестирования: отсутствие отвлекающих факторов, ясность инструкций, взаимодействие личности и т. д.
- Случайные факторы: удача в выборе ответов путем догадки, кратковременные отвлечения.
Цель оценки надежности состоит в том, чтобы определить, какая часть изменчивости результатов тестов обусловлена ошибками измерения , а какая — изменчивостью истинных оценок ( истинное значение ). [7]
Истинный балл – это воспроизводимая характеристика измеряемой концепции. Это часть наблюдаемой оценки, которая будет повторяться в разных случаях измерения при отсутствии ошибки.
Ошибки измерения состоят как из случайной, так и из систематической ошибки . Он представляет собой расхождения между баллами, полученными на тестах, и соответствующими истинными баллами.
Эта концептуальная разбивка обычно представляется простым уравнением:
- Наблюдаемая оценка теста = истинная оценка + ошибки измерения.
Классическая теория тестирования
[ редактировать ]Цель теории надежности — оценить ошибки измерений и предложить способы улучшения испытаний, чтобы минимизировать ошибки.
Центральное предположение теории надежности состоит в том, что ошибки измерения по существу случайны. Это не означает, что ошибки возникают в результате случайных процессов. Для любого человека ошибка измерения не является совершенно случайным событием. Однако предполагается, что у большого числа людей причины ошибок измерения настолько разнообразны, что ошибки измерения действуют как случайные переменные. [7]
Если ошибки имеют основные характеристики случайных величин, то разумно предположить, что ошибки с одинаковой вероятностью будут положительными или отрицательными и что они не коррелируют с истинными оценками или с ошибками в других тестах.
Предполагается, что: [8]
1. Средняя ошибка измерения = 0.
2. Истинные оценки и ошибки не коррелируют.
3. Ошибки различных показателей не коррелируют.
Теория надежности показывает, что дисперсия полученных оценок представляет собой просто сумму дисперсии истинных оценок плюс дисперсию ошибок измерения . [7]
Это уравнение предполагает, что результаты тестов варьируются в результате двух факторов:
1. Вариабельность истинных оценок
2. Вариабельность из-за ошибок измерения.
Коэффициент надежности обеспечивает индекс относительного влияния истинных и ошибочных оценок на полученные результаты тестов. В своей общей форме коэффициент надежности определяется как отношение истинной дисперсии баллов к общей дисперсии тестовых оценок. Или, что то же самое, единица минус отношение вариации оценки ошибки и вариации наблюдаемой оценки :
К сожалению, нет возможности напрямую наблюдать или подсчитывать истинный результат, поэтому для оценки надежности теста используются различные методы.
Некоторые примеры методов оценки надежности включают надежность повторного тестирования , надежность внутренней согласованности и надежность параллельного тестирования . Каждый метод по-своему решает проблему выяснения источника ошибки в тесте.
Теория ответа на предмет
[ редактировать ]Классическим теоретикам тестирования было хорошо известно, что точность измерений не является одинаковой во всем масштабе измерения. Тесты, как правило, лучше различают участников с умеренным уровнем характеристик и хуже среди участников с высокими и низкими баллами. Теория реагирования на предмет расширяет концепцию надежности от одного индекса до функции, называемой информационной функцией . Информационная функция IRT является обратной условной стандартной ошибке наблюдаемого балла при любом заданном балле теста.
Оценка
[ редактировать ]Цель оценки надежности состоит в том, чтобы определить, какая часть изменчивости результатов тестов обусловлена ошибками в измерениях, а какая — изменчивостью истинных результатов.
Были разработаны четыре практические стратегии, которые обеспечивают работоспособные методы оценки надежности испытаний. [7]
1. надежности повторного теста Метод : непосредственно оценивается степень постоянства результатов тестов от одного прохождения теста к другому.
Это включает в себя:
- Проведение теста для группы людей
- Повторное проведение того же теста той же группе через некоторое время.
- Сопоставление первого набора оценок со вторым
Корреляция между баллами по первому тесту и баллами по повторному тесту используется для оценки надежности теста с использованием коэффициента корреляции момента продукта Пирсона : см. также корреляцию между элементами и итогом .
2. Метод параллельных форм :
Ключом к этому методу является разработка альтернативных форм тестирования, эквивалентных по содержанию, процессам реагирования и статистическим характеристикам. Например, существуют альтернативные формы нескольких тестов на общий интеллект, и эти тесты обычно считаются эквивалентными. [7]
С помощью модели параллельного тестирования можно разработать две формы теста, которые эквивалентны в том смысле, что истинный балл человека по форме А будет идентичен его истинному баллу по форме Б. Если бы обе формы теста были проведены количества человек, различия между баллами по форме А и форме Б могут быть обусловлены только ошибками измерения. [7]
Это включает в себя:
- Проведение одной формы теста группе людей
- Через некоторое время проведение альтернативной формы того же теста той же группе людей.
- Сопоставление баллов по форме А с оценками по форме Б
Корреляция между баллами в двух альтернативных формах используется для оценки надежности теста.
Этот метод обеспечивает частичное решение многих проблем, присущих надежности «тест-ретест» методу . Например, поскольку две формы теста различны, эффект переноса не представляет собой проблемы. Эффекты реактивности также частично контролируются; хотя прохождение первого теста может изменить ответы на второй тест. Однако разумно предположить, что при альтернативных формах теста эффект будет не таким сильным, как при двух применениях одного и того же теста. [7]
Однако у этой технологии есть свои недостатки:
- Может быть очень сложно создать несколько альтернативных форм теста.
- Также может быть сложно, если не невозможно, гарантировать, что две альтернативные формы теста являются параллельными мерами.
3. Метод разделения пополам :
Этот метод рассматривает две половины меры как альтернативные формы. Он обеспечивает простое решение проблемы, с которой сталкивается метод параллельных форм : трудности разработки альтернативных форм. [7]
Это включает в себя:
- Проведение теста для группы людей
- Разделение теста пополам
- Сопоставление результатов по одной половине теста с баллами по другой половине теста.
Корреляция между этими двумя разделенными половинками используется для оценки надежности теста. Затем эта половинная оценка надежности увеличивается до полной длины теста с использованием формулы прогнозирования Спирмена-Брауна .
Существует несколько способов разделения теста для оценки надежности. Например, словарный тест из 40 пунктов можно разделить на два подтеста: первый состоит из пунктов с 1 по 20, а второй — из пунктов с 21 по 40. Однако ответы первой половины могут систематически отличаться от ответы во второй половине из-за увеличения сложности задания и усталости. [7]
При разделении теста две половины должны быть как можно более похожими как с точки зрения содержания, так и с точки зрения вероятного состояния респондента. Самый простой метод — разделить тест на четные и нечетные, при котором задания с нечетными номерами составляют одну половину теста, а задания с четными номерами — другую. Такое расположение гарантирует, что каждая половина будет содержать одинаковое количество заданий из начала, середины и конца исходного теста. [7]
4. Внутренняя согласованность : оценивает согласованность результатов по всем пунктам теста. Наиболее распространенной мерой внутренней согласованности является альфа Кронбаха , которую обычно интерпретируют как среднее значение всех возможных коэффициентов разделения пополам. [9] Альфа Кронбаха представляет собой обобщение более ранней формы оценки внутренней согласованности, формулы Кудера-Ричардсона 20 . [9] Несмотря на то, что альфа Кронбаха используется чаще всего, существуют некоторые заблуждения относительно альфа Кронбаха. [10] [11]
Эти меры надежности различаются по своей чувствительности к различным источникам ошибок и поэтому не обязательно должны быть одинаковыми. Кроме того, надежность является свойством оценок показателя, а не самой меры, и поэтому считается, что она зависит от выборки . Оценки надежности одной выборки могут отличаться от оценок второй выборки (сверх того, что можно было бы ожидать из-за различий в выборке), если вторая выборка взята из другой совокупности, поскольку истинная изменчивость в этой второй совокупности различна. (Это верно для всех типов мер: мерки могут хорошо измерять дома, но имеют низкую надежность при измерении длины насекомых.)
Надежность можно повысить за счет ясности изложения (для письменных оценок), удлинения меры, [9] и другие неформальные средства. Однако формальный психометрический анализ, называемый анализом позиций, считается наиболее эффективным способом повышения надежности. Этот анализ состоит из расчета индексов сложности заданий и индексов распознавания заданий , причем последний индекс включает вычисление корреляций между заданиями и суммы баллов по всем заданиям всего теста. Если элементы, которые слишком сложны или слишком просты и/или имеют близкую к нулю или отрицательную дискриминацию, заменяются более качественными элементами, надежность измерения повысится.
- где это процент отказов.
См. также
[ редактировать ]- Коэффициент вариации
- Общая надежность
- Согласованность (статистика)
- Однородность (статистика)
- Тест-ретест надежности
- Внутренняя согласованность
- Уровни измерения
- Точность и точность
- Теория надежности
- Инженерия надежности
- Воспроизводимость
- Срок действия (статистика)
Ссылки
[ редактировать ]- ^ Уильям МК Трохим, Надежность
- ^ Национальный совет по измерению в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorR
- ^ др.], Нил Р. Карлсон ... [и др. (2009). Психология: наука о поведении (4-е канадское изд.). Торонто: Пирсон. ISBN 978-0-205-64524-4 .
- ^ Jump up to: а б Совет по стандартам подотчетности в маркетинге (MASB) поддерживает это определение в рамках своего текущего проекта «Общий язык: маркетинговая деятельность и показатели». Архивировано 12 февраля 2013 года в Wayback Machine .
- ^ Дюран, В. Марк. (2015). Основы аномальной психологии . [Место публикации не указано]: Cengage Learning. ISBN 978-1305633681 . OCLC 884617637 .
- ^ Jump up to: а б с д и ж г час я дж к л м Дэвидшофер, Кевин Р. Мерфи, Чарльз О. (2005). Психологическое тестирование: принципы и применение (6-е изд.). Река Аппер-Сэддл, Нью-Джерси: Пирсон/Прентис-Холл. ISBN 0-13-189172-3 .
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Гулликсен, Гарольд (1987). Теория ментальных тестов . Хиллсдейл, Нью-Джерси: L. Erlbaum Associates. ISBN 978-0-8058-0024-1 .
- ^ Jump up to: а б с Кортина, Дж. М. (1993). Что такое коэффициент альфа? Экспертиза теории и приложений. Журнал прикладной психологии, 78 (1), 98–104.
- ^ Риттер, Н. (2010). Понимание широко неправильно понимаемой статистики: альфа Кронбаха. Доклад, представленный на конференции Юго-западной ассоциации исследований в области образования (SERA) 2010, Новый Орлеан, Луизиана (ED526237).
- ^ Эйсинга, Р.; Те Гротенхейс, М.; Пельцер, Б. (2012). «Надежность шкалы из двух пунктов: Пирсона, Кронбаха или Спирмена-Брауна?» (PDF) . Международный журнал общественного здравоохранения . 58 (4): 637–642. дои : 10.1007/s00038-012-0416-3 . hdl : 2066/116735 . ПМИД 23089674 . S2CID 215730043 .