Jump to content

Конструировать валидность

Конструктивная валидность касается того, насколько хорошо набор показателей представляет или отражает концепцию, которая не поддается прямому измерению . [1] [2] [3] Конструктивная валидация — это накопление доказательств, подтверждающих интерпретацию того, что отражает мера. [1] [4] [5] [6] Современная теория валидности определяет конструктную валидность как всеобъемлющую задачу исследования валидности, включающую в себя все другие типы доказательств валидности. [7] [8] такие как достоверность содержания и достоверность критерия . [9] [10]

Валидность конструкта — это уместность выводов, сделанных на основе наблюдений или измерений (часто результатов тестов), в частности, можно ли разумно считать, что тест отражает предполагаемый конструкт . Конструкты — это абстракции, которые намеренно создаются исследователями для концептуализации скрытой переменной , которая коррелирует с оценками по заданному показателю (хотя она не наблюдаема напрямую). Валидность конструкта исследует вопрос: ведет ли мера так, как, согласно теории, должна вести себя мера этой конструкции?

Конструктивная валидность важна для воспринимаемой общей валидности теста. Конструктивная валидность особенно важна в социальных науках , психологии , психометрии и языковых исследованиях.

Психологи, такие как Сэмюэл Мессик (1998), настаивали на едином взгляде на валидность конструкта «… как комплексное оценочное суждение о степени, в которой эмпирические данные и теоретические обоснования поддерживают адекватность и уместность выводов и действий, основанных на результатах тестов. .." [11] В то время как взгляды Мессика популяризируются в сфере образовательных измерений и зародились в его карьере, связанной с объяснением валидности в контексте индустрии тестирования, определение, более соответствующее фундаментальным психологическим исследованиям, подкрепленное эмпирическими исследованиями, основанными на данных, которые подчеркивают статистические и причинные рассуждения, было дано Мессиком. (Борсбум и др., 2004). [12]

Ключом к построению валидности являются теоретические идеи, лежащие в основе рассматриваемой черты, т.е. концепции, которые организуют то, как аспекты личности , интеллекта и т. д. рассматриваются [13] Пол Мил утверждает: «Лучшая конструкция — это та, вокруг которой мы можем построить наибольшее количество выводов самым прямым образом». [1]

Очистка шкалы, то есть «процесс исключения пунктов из многопунктовых шкал» (Wieland et al., 2017), может повлиять на достоверность конструкции. Структура, представленная Wieland et al. (2017) подчеркивает, что при принятии решений по очистке от накипи необходимо учитывать как статистические, так и оценочные критерии. [14]

История [ править ]

На протяжении 1940-х годов ученые пытались придумать способы подтверждения экспериментов перед их публикацией. Результатом этого стало множество различных валидностей ( внутренняя валидность , внешняя валидность , логическая валидность , эмпирическая валидность и т. д.). Из-за этого было трудно определить, какие из них на самом деле одинаковы, а какие вообще бесполезны. До середины 1950-х годов существовало очень мало общепринятых методов проверки психологических экспериментов. Основная причина этого заключалась в том, что никто не выяснил, на какие именно качества экспериментов следует обратить внимание перед публикацией. Между 1950 и 1954 годами Комитет АПА по психологическим тестам встречался и обсуждал вопросы, связанные с проверкой психологических экспериментов. [1]

Примерно в это же время термин «конструктная валидность» был впервые введен Полом Милем и Ли Кронбахом в их основополагающей статье «Конструктная валидность в психологических тестах». Они отметили, что идея конструктной валидности на тот момент не была новой; скорее, это была комбинация многих различных типов обоснованности теоретических концепций. Они предложили следующие три шага для оценки валидности конструкции:

  1. формулирование набора теоретических концепций и их взаимосвязей
  2. разработка способов измерения гипотетических конструкций, предлагаемых теорией
  3. эмпирически проверяя предполагаемые соотношения [1]

Многие психологи отметили, что важная роль проверки конструкта в психометрии заключается в том, что при ней больше внимания уделяется теории, а не проверке. Этот акцент был сделан для удовлетворения основного требования, согласно которому валидация включает некоторую демонстрацию того, что тест измеряет теоретическую конструкцию, которую он призван измерить. Конструктивная валидность имеет три аспекта или компонента: содержательный компонент, структурный компонент и внешний компонент. [15] Они тесно связаны с тремя этапами процесса построения теста: составлением пула заданий, анализом и выбором внутренней структуры пула заданий и корреляцией результатов тестов с критериями и другими переменными.

В 1970-х годах обострились дебаты между теоретиками, которые начали рассматривать конструктную валидность как доминирующую модель, стремящуюся к более унифицированной теории валидности, и теми, кто продолжал работать на основе нескольких концепций валидности. [16] Многие психологи и исследователи в области образования считали «прогностическую, параллельную и содержательную валидность по существу ad hoc , а конструктная валидность представляла собой всю валидность с научной точки зрения» [15] В версии «Стандартов образовательного и психологического тестирования» 1974 года была признана взаимосвязь трех различных аспектов валидности: «Эти аспекты валидности можно обсуждать независимо, но только для удобства. Они взаимосвязаны операционально и логически; лишь в редких случаях является ли один из них важным в конкретной ситуации».

В 1989 году Мессик представил новую концептуализацию конструктной валидности как единой и многогранной концепции. [17] В рамках этой концепции все формы валидности связаны с качеством конструкции и зависят от него. Он отметил, что единая теория была не его собственной идеей, а скорее кульминацией дебатов и дискуссий в научном сообществе на протяжении предыдущих десятилетий. В единой теории валидности конструкта Мессика есть шесть аспектов валидности конструкта: [18]

  1. Косвенные последствия . Каковы потенциальные риски, если оценки недействительны или неправильно интерпретированы? Стоит ли тест по-прежнему, учитывая риски?
  2. Содержание . Содействуют ли тестовые задания измерению интересующей конструкции?
  3. Содержательный – надежна ли теоретическая основа, лежащая в основе конструкции интереса?
  4. Структурный – коррелируют ли взаимосвязи параметров, измеряемых тестом, с интересующей конструкцией и результатами теста?
  5. Внешний – обладает ли тест конвергентными, дискриминантными и прогностическими качествами?
  6. Обобщаемость . Обобщает ли тест результаты для разных групп, условий и задач?

То, как следует правильно рассматривать конструктную валидность, до сих пор остается предметом споров среди теоретиков валидности. Суть различия заключается в эпистемологическом различии между теоретиками -позитивистами и постпозитивистами .

Оценка [ править ]

Оценка валидности конструкта требует, чтобы корреляции показателя были проверены в отношении переменных, о которых известно, что они связаны с конструктом (предположительно измеряемых оцениваемым инструментом или для которых есть теоретические основания ожидать их связи). Это согласуется с матрицей мультипризнаков-мультиметодов (MTMM) проверки валидности конструкции, описанной в знаковой статье Кэмпбелла и Фиске (1959). [19] Помимо MTMM, существуют и другие методы оценки достоверности конструкции. Его можно оценить с помощью различных форм факторного анализа , моделирования структурными уравнениями (SEM) и других статистических оценок. [20] [21] Важно отметить, что отдельное исследование не доказывает конструктную валидность. Скорее, это непрерывный процесс оценки, переоценки, уточнения и развития. Корреляции, соответствующие ожидаемому образцу, служат доказательством валидности конструкции. Конструктная валидность — это суждение, основанное на накоплении корреляций из многочисленных исследований с использованием оцениваемого инструмента. [22]

Большинство исследователей пытаются проверить обоснованность конструкции до начала основного исследования. Для этого пилотные исследования можно использовать . Пилотные исследования представляют собой небольшие предварительные исследования, направленные на проверку возможности полномасштабного испытания. Эти пилотные исследования подтверждают силу их исследований и позволяют им внести любые необходимые коррективы. Другим методом является метод известных групп, который предполагает использование измерительного прибора для групп, которые, как ожидается, будут отличаться из-за известных характеристик. Проверка гипотетических отношений включает логический анализ, основанный на теории или предыдущих исследованиях. [6] Интервенционные исследования являются еще одним методом оценки валидности конструкции. Интервенционные исследования, в которых группа с низкими баллами по этой конструкции тестируется, обучается этой конструкции, а затем повторно измеряется, могут продемонстрировать валидность конструкции теста. Если существует значительная разница до и после теста, которые анализируются статистическими тестами, то это может демонстрировать хорошую валидность конструкции. [23]

и дискриминантная валидность Конвергентная

Конвергентная и дискриминантная валидность — это два подтипа валидности, составляющие конструктную валидность. Конвергентная валидность означает степень, в которой два показателя конструктов, которые теоретически должны быть связаны, на самом деле связаны. Напротив, дискриминантная валидность проверяет, являются ли понятия или измерения, которые должны быть несвязанными, на самом деле несвязанными. [19] Возьмем, к примеру, концепцию общего счастья. Если бы мера общего счастья имела конвергентную валидность, то конструкции, подобные счастью (удовлетворение, удовлетворенность, жизнерадостность и т. д.), должны были бы положительно относиться к мере общего счастья. Если эта мера имеет дискриминантную валидность, то конструкции, которые не должны быть положительно связаны с общим счастьем (печаль, депрессия, отчаяние и т. д.), не должны относиться к мере общего счастья. Меры могут иметь один из подтипов конструктной валидности и не иметь другого. На примере общего счастья исследователь может создать список, в котором существует очень высокая положительная корреляция между общим счастьем и удовлетворенностью, но если существует также значительная положительная корреляция между счастьем и депрессией, тогда валидность конструкции показателя ставится под сомнение. . Тест имеет конвергентную, но не дискриминантную валидность.

Номологическая сеть [ править ]

Ли Кронбах и Пол Мил (1955) [1] предположил, что разработка номологической сети имеет важное значение для измерения валидности конструкции теста. определяет Номологическая сеть конструкцию, иллюстрируя ее связь с другими конструкциями и поведением. Это представление концепций (конструктов), представляющих интерес для исследования, их наблюдаемых проявлений и взаимосвязей между ними. Он проверяет, учитываются ли отношения между аналогичными конструктами с отношениями между наблюдаемыми показателями конструктов. Тщательное наблюдение за взаимоотношениями конструктов друг с другом может генерировать новые конструкты. Например, интеллект и рабочая память считаются тесно связанными конструкциями. Наблюдая за их основными компонентами, психологи разработали новые теоретические конструкции, такие как: контролируемое внимание. [24] и кратковременная нагрузка. [25] Создание номологической сети также может сделать наблюдение и измерение существующих конструкций более эффективным за счет выявления ошибок. [1] Исследователи обнаружили, что изучение шишек на черепе человека ( френология ) не является показателем интеллекта, а объема мозга. Удалив теорию френологии из номологической сети интеллекта и добавив теорию эволюции массы мозга, конструкции интеллекта становятся более эффективными и мощными. Сплетение всех этих взаимосвязанных концепций и их наблюдаемых особенностей создает «сеть», поддерживающую их теоретическую концепцию. Например, в номологической сети академической успеваемости мы ожидаем, что наблюдаемые характеристики академической успеваемости (т. е. баллы GPA, SAT и ACT) будут соотноситься с наблюдаемыми характеристиками прилежности (часы, потраченные на учебу, внимательность в классе, детализация конспектов). . Если они этого не делают, то возникает проблема с измерением ( академических достижений или прилежности) или с предполагаемой теорией достижений. Если они являются индикаторами друг друга, то номологическая сеть и, следовательно, построенная теория академической успеваемости усиливается. Хотя номологическая сеть предложила теорию того, как усилить конструкты, она не говорит нам, как мы можем оценить достоверность конструкта в исследовании.

Матрица мультипризнаков и мультиметодов [ править ]

Матрица мультипризнаков и мультиметодов (MTMM) представляет собой подход к проверке валидности конструкции, разработанный Кэмпбеллом и Фиске (1959). [19] Эта модель исследует конвергенцию (доказательство того, что разные методы измерения конструкции дают схожие результаты) и различимость (способность отличать конструкцию от других связанных конструкций). Он измеряет шесть характеристик: оценка конвергентной валидности, оценка дискриминантной (дивергентной) валидности, единицы признак-метод, мультипризнак-мультиметоды, действительно разные методологии и характеристики черт. Такая схема позволяет исследователям проверять: «сходимость различных показателей… одной и той же «вещи»… и расхождение между показателями… связанных, но концептуально различных «вещей». [2] [26]

Угрозы для создания достоверности [ править ]

Очевидная валидность конструкции может вводить в заблуждение из-за ряда проблем в формулировке гипотез и планировании эксперимента.

  • Угадывание гипотезы : если участник знает или угадывает желаемый конечный результат, действия участника могут измениться. [27] Примером может служить эффект Хоторна : в исследовании промышленной эргономики, проведенном в 1925 году на фабрике Hawthorne Works недалеко от Чикаго, экспериментаторы заметили, что как снижение, так и увеличение уровня окружающего освещения повышали производительность труда. В конечном итоге они определили основу этого парадоксального результата: работники, которые знали, что за ними наблюдают, работали усерднее, независимо от изменений в окружающей среде.
  • Предвзятость в планировании эксперимента (преднамеренная или непреднамеренная). Примером этого является книга Стивена Джея Гулда « Неправильная мера человека », вышедшая в 1981 году. [28] Среди вопросов, использовавшихся примерно во время Первой мировой войны в батарее для измерения интеллекта, был: «В каком городе играют Доджерс?» (тогда они базировались в Бруклине). Недавние иммигранты в США из Восточной Европы, незнакомые с бейсболом, дали неверный ответ, и это было использовано для вывода о том, что у жителей Восточной Европы более низкий интеллект. Этот вопрос не измерял интеллект: он измерял лишь то, как долго человек прожил в США и приобщился к популярному времяпрепровождению.
  • Ожидания исследователя могут быть непреднамеренно сообщены участникам невербально, вызывая желаемый эффект. Чтобы контролировать эту возможность, двойные слепые там, где это возможно, следует использовать экспериментальные планы. То есть эксперт, оценивающий конкретного участника, не должен знать, какое вмешательство было применено к этому конкретному участнику, или должен быть независим от экспериментатора.
  • Слишком узкое определение прогнозируемого результата . [29] Например, использование только удовлетворенности работой для измерения счастья приведет к исключению соответствующей информации за пределами рабочего места.
  • Смешивающие переменные (ковариаты). Основная причина наблюдаемых эффектов может быть связана с переменными, которые не были учтены или измерены. [30]

Углубленное исследование угроз построению валидности представлено в «Трохиме». [31]

См. также [ править ]

Ссылки [ править ]

  1. Перейти обратно: Перейти обратно: а б с д и ж г Кронбах, ЖЖ; Мил, ЧП (1955). «Построить валидность в психологических тестах» . Психологический вестник . 52 (4): 281–302. дои : 10.1037/h0040957 . hdl : 11299/184279 . ПМИД   13245896 . S2CID   5312179 .
  2. Перейти обратно: Перейти обратно: а б Кук ТД; Кэмпбелл Д.Т. (1979). Квази-эксперименты . Бостон: Хоутон Миффлин.
  3. ^ Сьёберг, ДИК; Бергерсен, Греция (2022). «Построение валидности в программной инженерии» . Транзакции IEEE по разработке программного обеспечения . 49 (3): 1374–1396. дои : 10.1109/TSE.2022.3176725 .
  4. ^ Келли, Трумэн Ли (1927). Интерпретация образовательных измерений . Нью-Йорк: Всемирная книга.
  5. ^ Браун, доктор юридических наук (1996). Тестирование в языковых программах . Река Аппер-Сэдл, Нью-Джерси: Регенты Прентис-Холла.
  6. Перейти обратно: Перейти обратно: а б Полит Д.Ф. Бек CT (2012). Исследования в области сестринского дела: получение и оценка данных для сестринского дела, 9-е изд. Филадельфия, США: Wolters Klower Health, Lippincott Williams & Wilkins
  7. ^ Мессик, С. (1995). «Достоверность психологической оценки: проверка выводов на основе ответов и действий людей как научное исследование значения оценок». Американский психолог . 50 (9): 741–749. дои : 10.1037/0003-066x.50.9.741 .
  8. ^ Шотте, CKW; Мэйс, М.; Клюйдтс, Р.; Де Донкер, Д.; Косинс, П. (1997). «Построить достоверность опросника депрессии Бека в депрессивном населении». Журнал аффективных расстройств . 46 (2): 115–125. дои : 10.1016/s0165-0327(97)00094-3 . ПМИД   9479615 .
  9. ^ Гион, РМ (1980). «О тринитарных доктринах действительности». Профессиональная психология . 11 (3): 385–398. дои : 10.1037/0735-7028.11.3.385 .
  10. ^ Браун, доктор юридических наук (1996). Тестирование в языковых программах . Река Аппер-Сэдл, Нью-Джерси: Регенты Прентис-Холла.
  11. ^ Мессик, Сэмюэл (1998). «Достоверность теста: вопрос последствий». Исследование социальных показателей . 45 (1–3): 35–44. дои : 10.1023/а:1006964925094 . S2CID   142684085 .
  12. ^ Борсбум, Д., Мелленберг, Г.Дж., и ван Хеерде, Дж. (2004). Концепция валидности. Психологическое обозрение, 111(4), 1061–1071. https://doi.org/10.1037/0033-295X.111.4.1061
  13. ^ Пеннингтон, Дональд (2003). Сущностная личность . Арнольд. ISBN  978-0-340-76118-2 .
  14. ^ Виланд, А., Дюрах, К.Ф., Кембро, Дж. и Трейблмайер, Х. (2017), Статистические и оценочные критерии очистки от накипи, Управление цепочками поставок, Vol. 22, № 4, https://doi.org/10.1108/SCM-07-2016-0230
  15. Перейти обратно: Перейти обратно: а б Левингер Дж (1957). «Объективные тесты как инструменты психологической теории: Приложение к монографии 9». Психологические отчеты . 3 (3): 635–694. дои : 10.2466/pr0.1957.3.3.635 . S2CID   145640521 .
  16. ^ Кейн, Монтана (2006). «Верификация». Образовательные измерения . 4 : 17–64.
  17. ^ Мессик, С. (1989). «Действительность.». В Р. Л. Линне (ред.). Образовательные измерения (3-е изд.). Нью-Йорк: Американский совет по образованию/Макмиллан. стр. 13–103.
  18. ^ Мессик, С. (1995). «Стандарты действительности и действительности стандартов оценки эффективности». Образовательные измерения: проблемы и практика . 14 (4): 5–8. дои : 10.1111/j.1745-3992.1995.tb00881.x .
  19. Перейти обратно: Перейти обратно: а б с Кэмпбелл Д.Т. (1959). «Конвергентная и дискриминантная проверка с помощью матрицы мультипризнаков и мультиметодов». Психологический вестник . 56 (2): 81–105. дои : 10.1037/h0046016 . ПМИД   13634291 .
  20. ^ Хаммонд, К.Р., Хамм, Р.М., и Грассия, Дж. (1986). Обобщение условий путем объединения матрицы мультипризнаков, мультиметодов и репрезентативного плана экспериментов (№ CRJP-255A). Университет Колорадо в Центре исследований суждений и политики в Боулдере.
  21. ^ Вестен Дрю; Розенталь Роберт (2003). «Количественная оценка валидности конструкции: две простые меры» . Журнал личности и социальной психологии . 84 (3): 608–618. дои : 10.1037/0022-3514.84.3.608 . ПМИД   12635920 .
  22. ^ Питер, JP (1981). Конструктивная валидность: обзор основных проблем и маркетинговой практики. Журнал маркетинговых исследований, 133–145.
  23. ^ Димитров Д.М.; Полицейский Рамрилл-младший (2003). «Проекты предварительного и посттестового тестирования и измерение изменений». Работа: Журнал профилактики, оценки и реабилитации . 20 (2): 159–165. ПМИД   12671209 .
  24. ^ Энгл, Р.В., Кейн, М.Дж., и Тухольски, Ю.В. (1999). Индивидуальные различия в объеме рабочей памяти и что они говорят нам о контролируемом внимании, общем подвижном интеллекте и функциях префронтальной коры. В книге А. Мияке и П. Шах (ред.), Модели рабочей памяти (стр. 102–134). Кембридж: Издательство Кембриджского университета.
  25. ^ Акерман П.Л.; Бейер МЭ; Бойл М.О. (2002). «Индивидуальные различия в рабочей памяти в рамках номологической сети когнитивных и перцептивных способностей». Журнал экспериментальной психологии: Общие сведения . 131 (4): 567–589. дои : 10.1037/0096-3445.131.4.567 . ПМИД   12500864 .
  26. ^ Эджингтон, ЕС (1974). «Новая таблица статистических процедур, используемых в журналах APA». Американский психолог . 29:61 . дои : 10.1037/h0035846 .
  27. ^ Маккроски, Джей Си, Ричмонд, вице-президент, и Маккроски, LL (2006). Введение в общение в классе: роль общения в преподавании и обучении. Бостон: Аллин и Бэкон.
  28. ^ Гулд, SJ (1996). Неправильная мера человека. 2-е издание. Нью-Йорк: WW Norton & Company.
  29. ^ Маккензи С.Б. (2003). «Опасности плохой концептуализации конструкции». Журнал Академии маркетинговых наук . 31 (3): 323–326. CiteSeerX   10.1.1.417.7311 . дои : 10.1177/0092070303031003011 . S2CID   5930358 .
  30. ^ Белый Д.; Хультквист Р.А. (1965). «Построение смешанных планов для смешанных факторных планов» . Анналы математической статистики . 36 (4): 1256–1271. дои : 10.1214/aoms/1177699997 .
  31. ^ Угрозы для построения достоверности , Трохим, Уильям М. База знаний методов исследования, 2-е издание.

Внешние ссылки [ править ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 860e69dac11a2ae92e005b56dc9d99dd__1706292060
URL1:https://arc.ask3.ru/arc/aa/86/dd/860e69dac11a2ae92e005b56dc9d99dd.html
Заголовок, (Title) документа по адресу, URL1:
Construct validity - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)