Срок действия контента
В психометрике ) относится к степени , валидность содержания (также известная как логическая достоверность в которой мера отражает все аспекты данной конструкции. Например, шкала депрессии может оказаться недействительной по содержанию, если она оценивает только аффективный аспект депрессии, но не учитывает поведенческий аспект. В отношении определения достоверности содержания существует элемент субъективности, который требует определенной степени согласия относительно того, что представляет собой конкретная черта личности, такая как экстраверсия . Разногласия по поводу какой-либо черты личности будут препятствовать получению высокой содержательной валидности. [1]
Описание [ править ]
Валидность содержания отличается от валидности лица , которая относится не к тому, что на самом деле измеряет тест, а к тому, что он измеряет на первый взгляд. Лицевая валидность оценивает, «выглядит ли тест валидным» для экзаменуемых, которые его сдают, административного персонала, принимающего решение о его использовании, и других технически неподготовленных наблюдателей. Валидность содержания требует привлечения признанных экспертов в данной области для оценки того, соответствуют ли тестовые задания определенному содержанию, и более строгих статистических тестов, чем оценка лицевой валидности. Валидность содержания чаще всего рассматривается при академическом и профессиональном тестировании, где тестовые задания должны отражать знания, фактически необходимые для данной тематической области (например, история) или профессиональных навыков (например, бухгалтерский учет). В клинических условиях валидность содержания означает соответствие между элементами теста и содержанием симптомов синдрома.
Измерение [ править ]
Один из широко используемых методов измерения достоверности контента был разработан Ч. Л. Лоше. По сути, это метод оценки согласия между оценщиками или судьями относительно того, насколько важен тот или иной пункт. В статье отестирование перед приемом на работу, Лауше (1975) [2] предложил, чтобы каждый эксперт-оценщик предметной области (SME) в составе жюри ответил на следующий вопрос по каждому пункту: «Являются ли навыки или знания, измеряемые по этому пункту, «существенными», «полезными, но не существенными» или «несущественными»? необходимо» для выполнения работы?» По словам Лоше, если более половины участников дискуссии указывают, что какой-то элемент важен, этот элемент имеет хотя бы некоторую содержательную ценность. Уровень достоверности содержания повышается, поскольку большее количество участников дискуссии соглашаются с тем, что конкретный элемент важен. Используя эти предположения, Лоуше разработал формулу, названную коэффициентом достоверности контента: где коэффициент достоверности контента, количество участников дискуссии по МСП, отметивших «существенное», общее количество участников дискуссии из числа МСП. Эта формула дает значения в диапазоне от +1 до -1; положительные значения указывают на то, что по крайней мере половина МСП оценили товар как необходимый. Средний CVR по всем заданиям может использоваться как индикатор общей валидности содержания теста.
Лоуше (1975) представил таблицу критических значений CVR, с помощью которой оценщик тестов мог определить для группы МСП заданного размера размер расчетного CVR, необходимый для превышения случайного ожидания. Эту таблицу составил для Лоше его друг Лоуэлл Шиппер. Внимательное изучение этой опубликованной таблицы выявило аномалию. В таблице Шиппера критическое значение CVR монотонно увеличивается от случая 40 МСП (минимальное значение = 0,29) до случая 9 МСП (минимальное значение = 0,78) только для того, чтобы неожиданно упасть в случае 8 МСП (минимальное значение = 0,78). значение = 0,75) до достижения максимального значения в случае 7 МСП (минимальное значение = 0,99). Однако при применении формулы к 8 оценщикам результат 7 основных оценок и 1 другого дает CVR 0,75. Если бы 0,75 не было критическим значением, то потребовались бы 8 из 8 оценщиков Essential, которые дали бы CVR 1,00. В этом случае, чтобы соответствовать восходящему порядку CVR, значение для 8 оценщиков должно быть равно 1,00. Это нарушит тот же принцип, поскольку у вас будет «идеальное» значение, необходимое для 8 оценщиков, но не для рейтингов при другом количестве оценщиков, превышающем или меньше 8 оценщиков. Неясно, было ли это отклонение от монотонной прогрессии таблицы вызвано ошибкой расчета со стороны Шиппера или ошибкой при наборе текста или наборе текста. Wilson, Pan & Schumsky (2012) , пытаясь исправить ошибку, не нашли никаких объяснений ни в трудах Лоше, ни в каких-либо публикациях Шиппера, описывающих, как вычислялась таблица критических значений. Уилсон и его коллеги определили, что значения Шиппера очень близки к нормальному приближению биномиального распределения. Сравнивая значения Шиппера с недавно рассчитанными биномиальными значениями, они также обнаружили, что Лоуше и Шиппер ошибочно пометили свою опубликованную таблицу как представляющую односторонний тест, хотя на самом деле значения отражали биномиальные значения для двустороннего теста. Уилсон и его коллеги опубликовали пересчет критических значений коэффициента достоверности контента, предоставляющий критические значения с шагом в единицу на нескольких альфа-уровнях. [3]
Таблица значений следующая: [2]
Кол-во участников дискуссии | Мин. Ценить |
---|---|
5 | .99 |
6 | .99 |
7 | .99 |
8 | .75 |
9 | .78 |
10 | .62 |
11 | .59 |
12 | .56 |
20 | .42 |
30 | .33 |
40 | .29 |
См. также [ править ]
- Конструировать валидность
- Критерий достоверности
- Валидность теста
- Срок действия (статистика)
- Лицевая действительность
Ссылки [ править ]
- ^ Пеннингтон, Дональд (2003). Сущностная личность . Арнольд . п. 37. ИСБН 0-340-76118-0 .
- ^ Jump up to: Перейти обратно: а б Лоуше, Чарльз Х. (1975). «Количественный подход к достоверности контента». Психология персонала . 28 (4): 563–575. CiteSeerX 10.1.1.460.9380 . дои : 10.1111/j.1744-6570.1975.tb01393.x . S2CID 34660500 .
- ^ Уилсон, Ф. Роберт; Пан, Вэй; Шумский, Дональд А. (2012). «Пересчет критических значений коэффициента достоверности контента Лавше» . Измерение и оценка в консультировании и развитии . 45 (3). Информа UK Limited: 197–210. дои : 10.1177/0748175612440286 . ISSN 0748-1756 . S2CID 145201317 .
Внешние ссылки [ править ]
- Справочник по шкалам управления — Wikibook, содержащий ранее использовавшиеся многопунктовые шкалы для измерения конструкций в литературе по эмпирическим исследованиям в области управления. Для многих шкал обсуждается валидность содержания.