Срок действия (статистика)
Валидность — это основная степень, в которой концепция , вывод или измерение являются обоснованными и, вероятно, точно соответствуют реальному миру. [1] [2] Слово «валидный» происходит от латинского validus, что означает «сильный». Валидность инструмента измерения (например, теста в сфере образования) — это степень, в которой этот инструмент измеряет то, что он якобы измеряет. [3] Валидность основана на силе совокупности различных типов доказательств (например, лицевой валидности, конструктной валидности и т. д.), которые более подробно описаны ниже.
В психометрии валидность имеет особое применение, известное как валидность теста : «степень, в которой доказательства и теория подтверждают интерпретацию результатов тестов» («как это вытекает из предполагаемого использования тестов»). [4]
Принято считать, что концепция научной достоверности рассматривает природу реальности с точки зрения статистических показателей и как таковая является эпистемологической и философской проблемой, а также вопросом измерения . Использование этого термина в логике более узкое и касается связи между посылками и выводом аргумента. В логике валидность относится к свойству аргумента, согласно которому, если посылки истинны, то истинность вывода вытекает с необходимостью. Заключение аргумента истинно, если аргумент обоснован, то есть, если аргумент действителен и его посылки верны. Напротив, «научная или статистическая достоверность» — это не дедуктивное утверждение, которое обязательно сохраняет истину, а индуктивное утверждение, которое остается истинным или ложным в неопределенной манере. Вот почему «научная или статистическая достоверность» — это утверждение, которое по своей природе квалифицируется как сильное или слабое; оно никогда не является необходимым и не является безусловно истинным. Это приводит к тому, что заявления о «научной или статистической достоверности» становятся открытыми для интерпретации относительно того, что на самом деле означают факты.
Валидность важна, потому что она может помочь определить, какие типы тестов использовать, и помочь гарантировать, что исследователи используют методы, которые не только этичны и экономически эффективны, но и те, которые действительно измеряют рассматриваемые идеи или конструкции.
Валидность теста
[ редактировать ]Валидность (точность)
[ редактировать ]Срок действия [5] Оценка – это степень, в которой она измеряет то, что она должна измерять. Это не то же самое, что надежность , которая представляет собой степень, в которой измерение дает очень стабильные результаты. В рамках достоверности измерения не всегда должны быть одинаковыми, как в случае с надежностью. Однако только потому, что мера надежна, она не обязательно действительна. Например, весы с отклонением на 5 фунтов надежны, но недействительны. Тест не может быть валидным, если он не надежен. Валидность также зависит от того, измеряется ли измерение того, для чего оно было разработано, а не чего-то другого. [6] Валидность (аналогично надежности) — понятие относительное; валидность – это не идея «все или ничего». Существует много различных типов валидности.
Конструировать валидность
[ редактировать ]Валидность конструкции относится к степени, в которой операционализация конструкции (например, практические тесты, разработанные на основе теории) измеряют конструкцию, определенную теорией. Оно включает в себя все другие виды валидности. Например, степень, в которой тест измеряет интеллект, является вопросом валидности конструкции. Мера интеллекта предполагает, среди прочего, что эта мера связана с вещами, с которыми она должна быть связана ( конвергентная валидность ), а не с вещами, с которыми она не должна быть связана ( дискриминантная валидность ). [7]
Доказательства валидности конструкта включают эмпирическую и теоретическую поддержку интерпретации конструкта. Такие линии доказательств включают статистический анализ внутренней структуры теста, включая взаимосвязь между ответами на различные элементы теста. Они также включают взаимосвязи между тестом и показателями других конструкций. В нынешнем понимании валидность конструкта не отличается от поддержки содержательной теории конструкта, для измерения которого предназначен тест. Таким образом, эксперименты, направленные на выявление аспектов причинной роли конструкции, также способствуют построению доказательств достоверности. [7]
Срок действия контента
[ редактировать ]Валидность содержания — это нестатистический тип валидности, который включает «систематическое изучение содержания теста с целью определить, охватывает ли он репрезентативную выборку измеряемой области поведения» (Анастаси и Урбина, 1997, стр. 114). Например, есть ли в опроснике IQ пункты, охватывающие все области интеллекта, обсуждаемые в научной литературе?
Доказательство достоверности контента включает в себя степень, в которой содержание теста соответствует домену контента, связанному с конструкцией. Например, тест на умение складывать два числа должен включать ряд комбинаций цифр. Тест только с однозначными числами или только с четными числами не обеспечит хорошего охвата предметной области. Доказательства, связанные с содержанием, обычно включают в себя эксперта в данной области (SME), который оценивает тестовые задания на соответствие спецификациям теста. Экспертам следует обратить внимание на любые культурные различия. Например, когда анкета для оценки вождения принимается в Англии (например, DBQ), эксперты должны учитывать правостороннее вождение в Великобритании. Некоторые исследования показали, что это будет иметь решающее значение для получения действительной анкеты. [8] Прежде чем приступить к окончательному заполнению вопросников, исследователь должен проверить достоверность пунктов по каждому из конструктов или переменных и соответственно модифицировать инструменты измерения на основе мнения малого и среднего бизнеса.
Валидность содержания теста встроена в него путем тщательного выбора элементов для включения (Анастаси и Урбина, 1997). Элементы выбираются так, чтобы они соответствовали спецификации теста, составленной путем тщательного изучения предметной области. Фокскрофт, Патерсон, Ле Ру и Хербст (2004, стр. 49) [9] Обратите внимание, что с помощью группы экспертов для рассмотрения спецификаций теста и выбора элементов можно повысить достоверность содержания теста. Эксперты смогут просмотреть элементы и прокомментировать, охватывают ли они репрезентативную выборку поведенческой области.
Лицевая валидность
[ редактировать ]Лицевая валидность — это оценка того, соответствует ли тест определенному критерию; он не гарантирует, что тест действительно измеряет явления в этой области. Измерения могут иметь высокую валидность, но когда тест не измеряет то, что он собой представляет, он имеет низкую внешнюю валидность. Действительно, когда тест подвергается фальсификации (симуляции), низкая внешняя валидность может сделать тест более валидным. Учитывая, что можно получить более честные ответы с более низкой валидностью лица, иногда важно при применении мер создать впечатление, будто существует низкая валидность лица.
Валидность лица очень тесно связана с достоверностью контента. В то время как достоверность содержания зависит от теоретической основы для предположения, оценивает ли тест все области определенного критерия (например, дает ли оценка навыков сложения в хорошей мере математические навыки? Чтобы ответить на этот вопрос, вы должны знать, какие различные виды арифметических навыков математические навыки включают в себя) лицевая валидность связана с тем, является ли тест хорошим показателем или нет. Эта оценка выносится «на лицо» теста, поэтому ее также может оценивать любитель.
Фейчная валидность является отправной точкой, но никогда не следует предполагать, что она вероятно верна для какой-либо конкретной цели, поскольку «эксперты» ошибались и раньше — Malleus Malificarum («Молот ведьм») не имел никакой поддержки для своих выводов, кроме самооценки. воображаемая компетентность двух «экспертов» в «обнаружении колдовства», тем не менее, она использовалась как «испытание», чтобы осудить и сжечь на кострах десятки тысяч мужчин и женщин как «ведьм». [10]
Критерий достоверности
[ редактировать ]Доказательство валидности критерия включает корреляцию между тестом и критериальной переменной (или переменными), взятой в качестве репрезентативной для конструкции. Другими словами, он сравнивает тест с другими показателями или результатами (критериями), которые уже признаны действительными. Например, тесты отбора сотрудников часто проверяются по показателям производительности труда (критерий), а тесты IQ часто проверяются по показателям академической успеваемости (критерий).
Если данные испытаний и данные критериев собираются одновременно, это называется параллельным доказательством достоверности. Если сначала собираются тестовые данные, чтобы спрогнозировать данные критерия, собранные в более поздний момент времени, то это называется доказательством прогностической достоверности.
Параллельное действие
[ редактировать ]Параллельная валидность относится к степени, в которой операционализация коррелирует с другими показателями той же конструкции, которые измеряются в то же время. Когда мера сравнивается с другой мерой того же типа, они будут связаны (или коррелированы). Возвращаясь к примеру с отборочным тестом, это будет означать, что тесты проводятся для нынешних сотрудников, а затем коррелируются с их оценками в аттестациях.
Прогностическая достоверность
[ редактировать ]Прогностическая валидность относится к степени, в которой операционализация может предсказать (или коррелировать) с другими показателями той же конструкции, которые будут измерены в какой-то момент в будущем. Опять же, в примере с отборочным тестом это будет означать, что тесты проводятся среди кандидатов, все кандидаты принимаются на работу, их результаты проверяются позднее, а затем их баллы по двум показателям коррелируют.
Это также когда измерение предсказывает взаимосвязь между тем, что измеряется, и чем-то еще; предсказание того, произойдет ли что-то другое в будущем. Высокая корреляция между прогнозируемыми заранее и фактическими результатами является самым убедительным доказательством достоверности.
Экспериментальная достоверность
[ редактировать ]Обоснованность плана экспериментальных исследований является фундаментальной частью научного метода . [2] и озабоченность исследовательской этикой . Без обоснованного дизайна невозможно сделать достоверные научные выводы.
Обоснованность статистического вывода
[ редактировать ]Валидность статистических выводов — это степень, в которой выводы о взаимосвязи между переменными, основанные на данных, являются правильными или «обоснованными». Вначале речь шла исключительно о том, верен ли статистический вывод о взаимосвязи переменных, но теперь наблюдается движение к переходу к «разумным» выводам, использующим: количественные, статистические и качественные данные. [11]
Обоснованность статистических выводов предполагает обеспечение использования адекватных процедур выборки, соответствующих статистических тестов и надежных процедур измерения. [12] Поскольку этот тип достоверности касается исключительно отношений, обнаруженных между переменными, эта связь может быть исключительно корреляцией.
Внутренняя валидность
[ редактировать ]Внутренняя валидность – это индуктивная оценка степени, в которой можно сделать выводы о причинно-следственных связях (например, причинах и следствиях) на основе использованных показателей, условий исследования и всего плана исследования. Хорошие экспериментальные методы, в которых влияние независимой переменной на зависимую изучается в строго контролируемых условиях, обычно допускают более высокую степень внутренней валидности, чем, например, планы для одного случая.
Восемь типов мешающих переменных могут мешать внутренней достоверности (т. е. попытке изолировать причинно-следственные связи):
- История : конкретные события, происходящие между первым и вторым измерениями в дополнение к экспериментальным переменным.
- Созревание — процессы внутри участников, происходящие в зависимости от течения времени (не специфичные для конкретных событий), например, старение, голод, усталость и т. д.
- Тестирование : влияние прохождения теста на результаты второго тестирования.
- Приборы , изменения в калибровке измерительного инструмента или изменения в составе наблюдателей или счетчиков могут привести к изменениям в полученных измерениях.
- Статистическая регрессия , действующая при выборе групп на основе их крайних показателей.
- Отбор , систематические ошибки, возникающие в результате дифференцированного отбора респондентов для групп сравнения.
- Экспериментальная смертность , или дифференциальная потеря респондентов из групп сравнения.
- Взаимодействие отбора-взросления и т. д., например, в квазиэкспериментальных планах с несколькими группами.
Внешняя валидность
[ редактировать ]Внешняя валидность касается степени, в которой (внутренне валидные) результаты исследования могут считаться истинными для других случаев, например, для разных людей, мест или времен. Другими словами, речь идет о том, можно ли достоверно обобщить результаты. Если бы то же самое исследование было проведено и в других случаях, получили бы такие же результаты?
Основным фактором при этом является то, является ли выборка исследования (например, участники исследования) репрезентативной для населения в целом по соответствующим параметрам. Другими факторами, ставящими под угрозу внешнюю валидность, являются:
- Реактивный или интерактивный эффект тестирования : предварительный тест может повысить баллы в посттесте.
- Эффекты взаимодействия систематических ошибок отбора и экспериментальной переменной .
- Реактивные эффекты экспериментальных мероприятий , которые исключают обобщение влияния экспериментальной переменной на людей, подвергающихся ее воздействию в неэкспериментальных условиях.
- Вмешательство при многократном лечении , когда эффекты более раннего лечения невозможно стереть.
Экологическая обоснованность
[ редактировать ]Экологическая валидность — это степень, в которой результаты исследований могут быть применены к реальным жизненным ситуациям за пределами исследовательских учреждений. Этот вопрос тесно связан с внешней валидностью, но затрагивает вопрос о том, в какой степени экспериментальные данные отражают то, что можно наблюдать в реальном мире (экология = наука о взаимодействии между организмом и окружающей средой). Чтобы быть экологически обоснованными, методы, материалы и условия исследования должны приближаться к реальной ситуации, которую изучают.
Экологическая достоверность частично связана с проблемой эксперимента и наблюдения. Обычно в науке существуют две области исследований: наблюдательные (пассивные) и экспериментальные (активные). Целью экспериментальных планов является проверка причинно-следственной связи, чтобы вы могли сделать вывод, что А является причиной Б или Б является причиной А. Но иногда этические и/или методологические ограничения не позволяют вам провести эксперимент (например, как изоляция влияет на когнитивное функционирование ребенка?) . Тогда вы все еще можете проводить исследования, но они не причинно-следственные, а корреляционные. Вы можете только заключить, что А происходит вместе с Б. Оба метода имеют свои сильные и слабые стороны.
Связь с внутренней валидностью
[ редактировать ]На первый взгляд кажется, что внутренняя и внешняя валидность противоречат друг другу: чтобы получить экспериментальный план, необходимо учитывать все мешающие переменные. Вот почему вы часто проводите эксперименты в лабораторных условиях. Приобретая внутреннюю достоверность (исключая мешающие переменные, сохраняя их постоянными), вы теряете экологическую или внешнюю достоверность, поскольку устанавливаете искусственные лабораторные условия. С другой стороны, с помощью наблюдательного исследования вы не можете контролировать мешающие переменные (низкая внутренняя валидность), но вы можете проводить измерения в естественной (экологической) среде, в том месте, где обычно происходит поведение. Однако при этом вы жертвуете внутренней достоверностью.
Однако кажущееся противоречие внутренней и внешней валидности является лишь поверхностным. Вопрос о том, распространяются ли результаты конкретного исследования на других людей, места или времена, возникает только тогда, когда кто-то следует индуктивистской исследовательской стратегии . Если целью исследования является дедуктивная проверка теории, его интересуют только факторы, которые могут подорвать строгость исследования, то есть угрозы внутренней достоверности. Другими словами, актуальность внешней и внутренней валидности для исследования зависит от целей исследования. Более того, объединение целей исследования с проблемами достоверности может привести к проблеме взаимной внутренней достоверности, когда теории способны объяснить только явления в искусственных лабораторных условиях, но не в реальном мире. [13] [14]
Диагностическая достоверность
[ редактировать ]В психиатрии существует особая проблема с оценкой обоснованности самих диагностических категорий . В этом контексте: [15]
- валидность содержания может относиться к симптомам и диагностическим критериям;
- параллельная валидность может определяться различными коррелятами или маркерами, а также, возможно, ответом на лечение;
- прогностическая достоверность может относиться главным образом к диагностической стабильности с течением времени;
- дискриминантная валидность может включать отграничение от других расстройств.
Робинс и Гузе предложили в 1970 году формальные критерии, которые впоследствии стали влиятельными для установления достоверности психиатрических диагнозов. Они перечислили пять критериев: [15]
- четкое клиническое описание (включая профили симптомов, демографические характеристики и типичные осадители)
- лабораторные исследования (включая психологические тесты, радиологические и посмертные исследования)
- отграничение от других расстройств (посредством критериев исключения)
- последующие исследования, показывающие характерное течение (включая доказательства диагностической стабильности)
- семейные исследования, показывающие семейную кластеризацию
Они были включены в критерии Фейнера и исследовательские диагностические критерии , которые с тех пор легли в основу классификационных систем DSM и ICD.
Кендлер в 1980 году различал: [15]
- предшествующие валидаторы (семейная агрегация, преморбидная личность и провоцирующие факторы)
- одновременные валидаторы (включая психологические тесты)
- прогностические валидаторы (постоянство диагноза с течением времени, частота рецидивов и выздоровлений, а также реакция на лечение)
Нэнси Андреасен (1995) перечислила несколько дополнительных валидаторов – молекулярную генетику и молекулярную биологию , нейрохимию , нейроанатомию , нейрофизиологию и когнитивную нейробиологию – которые потенциально способны связывать симптомы и диагнозы с их нейронными субстратами . [15]
Кенделл и Джаблински (2003) подчеркнули важность различия между валидностью и полезностью и утверждали, что диагностические категории, определяемые их синдромами, следует считать валидными только в том случае, если было доказано, что они представляют собой отдельные сущности с естественными границами, которые отделяют их от других расстройств. [15]
Кендлер (2006) подчеркнул, что для того, чтобы быть полезным, критерий валидации должен быть достаточно чувствительным, чтобы подтвердить большинство синдромов, которые являются истинными расстройствами, и в то же время быть достаточно конкретным, чтобы сделать недействительными большинство синдромов, которые не являются истинными расстройствами. На этом основании он утверждает, что критерий Робинса и Гузе «в семье» недостаточно конкретен, поскольку под него подпадают большинство психологических и физических черт человека - например, произвольный синдром, включающий смесь «роста более 6 футов, рыжих волос и рыжих волос». «и большой нос» будет «передаваться по наследству » , но это не следует считать доказательством того, что это заболевание. Кендлер далее предположил, что « эссенциалистские » генные модели психических расстройств и надежда на то, что мы сможем подтвердить категоричные психиатрические диагнозы, «разрезая природу по суставам» исключительно в результате открытия генов, неправдоподобны. [16]
В системе Федерального суда США достоверность и надежность доказательств оценивается с использованием стандарта Даубера: см . «Добер против Меррелла Доу Фармасьютикалс» . Перри и Лихтенвальд (2010) в своем анализе осуждения за неправомерное убийство служат отправной точкой для обсуждения широкого спектра тем надежности и обоснованности. [17]
См. также
[ редактировать ]- Все модели неправильные
- Параллельное действие
- Срок действия контента
- Конструировать валидность
- Перекрестная проверка (статистика)
- Внешняя валидность
- Лицевая валидность
- Внутренняя валидность
- Прогностическая достоверность
- Проверка регрессионной модели
- Обоснованность статистического вывода
- Статистическая проверка модели
- Валидность (логика)
- Шкала достоверности
- Валидация (значения)
- Чувствительность и специфичность
Ссылки
[ редактировать ]- ^ Мозги, Уиллнат, Манхейм, Рич, 2011. Эмпирический политический анализ, 8-е издание. Бостон: Лонгман с. 105
- ^ Jump up to: а б Кэмпбелл, Дональд Т. (1957). «Факторы, имеющие отношение к достоверности экспериментов в социальных условиях» . Психологический вестник . 54 (4): 297–312. дои : 10.1037/h0040950 . ISSN 1939-1455 . ПМИД 13465924 .
- ^ Келли, Трумэн Ли (1927). Интерпретация образовательных измерений . Йонкерс-он-Гудзон, Нью-Йорк: Всемирная книжная компания. п. 14.
Проблема валидности заключается в том, действительно ли тест измеряет то, что он призван измерять...
- ^ Американская ассоциация исследований в области образования, Психологическая ассоциация и Национальный совет по измерениям в образовании. (1999). Стандарты образовательного и психологического тестирования . Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.
- ^ Национальный совет по измерению в образовании. https://web.archive.org/web/20160924135257/http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9- e8515326a061
- ^ Крамер, Джеффри П., Дуглас А. Бернштейн и Вики Фарес. Введение в клиническую психологию. 7-е изд. Река Аппер-Сэддл, Нью-Джерси: Пирсон Прентис Холл, 2009. Печать.
- ^ Jump up to: а б Кронбах, Ли Дж.; Мил, Пол Э. (1955). «Построить валидность в психологических тестах». Психологический вестник . 52 (4): 281–302. дои : 10.1037/h0040957 . hdl : 11299/184279 . ISSN 0033-2909 . ПМИД 13245896 . S2CID 5312179 .
- ^ Аргами, Ширазе; Садеги, Голамреза; Аббаси Ченари, Мохсен (2020). «Переоценка психометрических свойств персидской версии Манчестерского опросника по поведению вождения». Иранская гигиена труда . 17 (8): 1–19.
- ^ Фокскрофт, К., Патерсон, Х., Ле Ру, Н., и Хербст, Д. Исследовательский совет по гуманитарным наукам, (2004). «Психологическая оценка в Южной Африке: анализ потребностей: модели использования тестов и потребности специалистов по психологической оценке: итоговый отчет: июль . Получено с веб-сайта: http://www.hsrc.ac.za/research/output/outputDocuments/1716_Foxcroft_Psychologicalassessmentin%20SA.pdf .
- ^ Наиболее распространенные оценки составляют от 40 000 до 60 000 смертей. Брайан Левак ( «Охота на ведьм в Европе раннего Нового времени ») умножил количество известных европейских процессов над ведьмами на средний уровень осуждений и казней и получил цифру около 60 000 смертей. Энн Левелин Барстоу ( «Ведьминское безумие ») скорректировала оценку Левака, чтобы учесть утерянные записи, оценивая 100 000 смертей. Рональд Хаттон ( «Триумф Луны ») утверждает, что оценка Левака уже была скорректирована с учетом этих факторов, и пересматривает цифру примерно до 40 000.
- ^ Козби, Пол С.. Методы поведенческих исследований. 10-е изд. Бостон: Высшее образование МакГроу-Хилл, 2009. Печать.
- ^ Джонатан Джавид (6 ноября 2015 г.). «Достоверность и достоверность измерений» . SlideShare.net . Проверено 23 марта 2018 г.
- ^ Лин, Хаус; Вернер, Кейтлин М.; Инцлихт, Майкл (16 февраля 2021 г.). «Обещания и опасности экспериментирования: проблема взаимной внутренней достоверности» . Перспективы психологической науки . 16 (4): 854–863. дои : 10.1177/1745691620974773 . ISSN 1745-6916 . ПМИД 33593177 . S2CID 231877717 .
- ^ Шрам, Артур (1 июня 2005 г.). «Искусственность: противоречие между внутренней и внешней обоснованностью экономических экспериментов» . Журнал экономической методологии . 12 (2): 225–237. дои : 10.1080/13501780500086081 . ISSN 1350-178X . S2CID 145588503 .
- ^ Jump up to: а б с д и Кенделл, Р.; Ябленский, А (2003). «Различие между обоснованностью и полезностью психиатрических диагнозов». Американский журнал психиатрии . 160 (1): 4–12. дои : 10.1176/appi.ajp.160.1.4 . ПМИД 12505793 .
- ^ Кендлер, Канзас (2006). «Размышления о взаимосвязи психиатрической генетики и психиатрической нозологии». Американский журнал психиатрии . 163 (7): 1138–46. дои : 10.1176/appi.ajp.163.7.1138 . ПМИД 16816216 .
- ^ Перри, Ф.С.; Лихтенвальд, Т.Г. (2010). «Ненадежное использование судебной психологии в качестве доказательства: дело Тимоти Мастерса» (PDF) . Журнал Champion (июль): 34–45.
Дальнейшее чтение
[ редактировать ]- Кронбах, ЖЖ; Мил, PE (1955), «Конструируйте валидность психологических тестов» , Psychoological Bulletin , 52 (4): 281–302, doi : 10.1037/h0040957 , hdl : 11299/184279 , PMID 13245896 , S2CID 5312179
- Рупп, А.А.; Пант, Х.А. (2007), «Теория достоверности», Салкинд, Нил Дж. (ред.), Энциклопедия измерений и статистики , SAGE Publishing.
