Внутриклассовая корреляция
В статистике — внутриклассовая корреляция , или коэффициент внутриклассовой корреляции ( ICC ), [1] — это описательная статистика , которую можно использовать при проведении количественных измерений на единицах, организованных в группы. Он описывает, насколько сильно единицы в одной группе похожи друг на друга. Хотя он рассматривается как тип корреляции , в отличие от большинства других показателей корреляции, он работает с данными, структурированными как группы, а не с данными, структурированными как парные наблюдения.
Внутриклассовая корреляция обычно используется для количественной оценки степени, в которой люди с фиксированной степенью родства (например, полные братья и сестры) похожи друг на друга с точки зрения количественного признака (см. Наследственность ). Еще одним известным применением является оценка последовательности или воспроизводимости количественных измерений, выполненных разными наблюдателями, измеряющими одну и ту же величину.
Раннее определение ICC: беспристрастная, но сложная формула
[ редактировать ]Самая ранняя работа по внутриклассовым корреляциям была сосредоточена на случае парных измерений, и первой предложенной статистикой внутриклассовой корреляции (ICC) были модификации межклассовой корреляции (корреляция Пирсона).
Рассмотрим набор данных, состоящий из N парных значений данных ( x n ,1 , x n ,2 ) для n = 1, ..., N . внутриклассовая корреляция r Первоначально предложенная [2] Фишер Рональд [3] является
где
Более поздние версии этой статистики [3] использовали степени свободы 2 N −1 в знаменателе для расчета s 2 и N −1 в знаменателе для вычисления r , так что s 2 становится несмещенным, а r становится несмещенным, если s известно .
Ключевое различие между этой ICC и межклассовой корреляцией (Пирсона) заключается в том, что данные объединяются для оценки среднего значения и дисперсии. Причина этого в том, что в ситуации, когда желательна внутриклассовая корреляция, пары считаются неупорядоченными. Например, если мы изучаем сходство близнецов, обычно не существует значимого способа упорядочить значения для двух людей в паре близнецов. Как и межклассовая корреляция, внутриклассовая корреляция для парных данных будет ограничена интервалом [ -1, +1].
Внутриклассовая корреляция также определяется для наборов данных с группами, имеющими более двух значений. Для групп, состоящих из трех значений, он определяется как [3]
где
По мере роста количества элементов в группе растет и количество членов перекрестного произведения в этом выражении. Проще вычислить следующую эквивалентную форму:
где K — количество значений данных на группу, а — выборочное среднее n й группа. [3] Эту форму обычно приписывают Харрису . [4] Левый член неотрицательен; следовательно, внутриклассовая корреляция должна удовлетворять
Для больших K этот ICC почти равен
которую можно интерпретировать как долю общей дисперсии, обусловленную различиями между группами. Рональд Фишер посвятил целую главу внутриклассовой корреляции в своей классической книге «Статистические методы для научных работников» . [3]
Для данных из совокупности, которая полностью зашумлена, формула Фишера дает значения ICC, которые распределены около 0, т.е. иногда являются отрицательными. Это связано с тем, что Фишер разработал формулу как несмещенную, и поэтому ее оценки иногда завышаются, а иногда занижаются. Для небольших или нулевых базовых значений в генеральной совокупности ICC, рассчитанный на основе выборки, может быть отрицательным.
Современные определения ICC: более простая формула, но положительная предвзятость
[ редактировать ]Начиная с Рональда Фишера, внутриклассовая корреляция рассматривалась в рамках дисперсионного анализа (ANOVA), а в последнее время – в рамках моделей случайных эффектов . Был предложен ряд оценок ICC. Большинство оценок можно определить в терминах модели случайных эффектов.
где Y ij - это i й наблюдение в j й группа, μ — ненаблюдаемое общее среднее значение , α j — ненаблюдаемый случайный эффект, общий для всех значений в группе j , а ε ij — ненаблюдаемый шумовой термин. [5] Для идентификации модели предполагается, что α j и ε ij имеют нулевое ожидаемое значение и не коррелируют друг с другом. Кроме того, α j предполагается, что одинаково распределены, а ε ij считаются одинаково распределенными. Дисперсия α j обозначается σ 2
α , а дисперсия ε ij обозначается σ 2
эх .
Популяционный ICC в этой системе равен [6]
В этой системе ICC представляет собой корреляцию двух наблюдений из одной группы.
Преимущество этой структуры ANOVA заключается в том, что разные группы могут иметь разное количество значений данных, что сложно обработать с использованием более ранней статистики ICC. Этот ICC всегда неотрицательен, что позволяет интерпретировать его как долю общей дисперсии «между группами». Этот ICC можно обобщить, чтобы учесть ковариатные эффекты, и в этом случае ICC интерпретируется как фиксирующий внутриклассовое сходство значений данных с поправкой на ковариат. [8]
Это выражение никогда не может быть отрицательным (в отличие от исходной формулы Фишера), и поэтому в выборках из популяции, у которой ICC равен 0, ICC в выборках будет выше, чем ICC популяции.
Был предложен ряд различных статистических данных ICC, не все из которых оценивают один и тот же параметр населения. Были серьезные споры о том, какие статистические данные ICC подходят для конкретного использования, поскольку они могут давать совершенно разные результаты для одних и тех же данных. [9] [10]
Связь с коэффициентом корреляции Пирсона
[ редактировать ]По своей алгебраической форме первоначальный ICC Фишера больше всего напоминает коэффициент корреляции Пирсона . Одно ключевое различие между этими двумя статистическими данными заключается в том, что в ICC данные центрируются и масштабируются с использованием объединенного среднего и стандартного отклонения, тогда как в корреляции Пирсона каждая переменная центрируется и масштабируется по своему собственному среднему и стандартному отклонению. Такое объединенное масштабирование для ICC имеет смысл, поскольку все измерения имеют одинаковую величину (хотя и для единиц в разных группах). Например, в парном наборе данных, где каждая «пара» представляет собой одно измерение, выполненное для каждой из двух единиц (например, взвешивание каждого близнеца в паре однояйцевых близнецов), а не два разных измерения для одной единицы (например, измерение роста и вес для каждого человека), ICC является более естественным показателем связи, чем корреляция Пирсона.
Важным свойством корреляции Пирсона является то, что она инвариантна к применению отдельных линейных преобразований к двум сравниваемым переменным. Таким образом, если мы соотносим X и Y , где, скажем, Y = 2 X + 1, корреляция Пирсона между X и Y равна 1 — идеальная корреляция. Это свойство не имеет смысла для ICC, поскольку нет основы для принятия решения о том, какое преобразование применить к каждому значению в группе. Однако если все данные во всех группах подвергнуть одному и тому же линейному преобразованию, ICC не изменится.
Использование при оценке соответствия среди наблюдателей.
[ редактировать ]ICC используется для оценки последовательности или соответствия измерений, выполненных несколькими наблюдателями, измеряющими одну и ту же величину. [11] Например, если нескольких врачей попросят оценить результаты компьютерной томографии на наличие признаков прогрессирования рака, мы можем спросить, насколько эти оценки соответствуют друг другу. Если правда известна (например, если компьютерная томография проводилась на пациентах, которые впоследствии перенесли диагностическую операцию), то основное внимание обычно будет уделяться тому, насколько оценки врачей соответствуют истине. Если истина неизвестна, мы можем рассматривать только сходство результатов. Важным аспектом этой проблемы является то, что существует вариабельность как между наблюдателями , так и внутри наблюдателя. Вариабельность между наблюдателями относится к систематическим различиям между наблюдателями — например, один врач может постоянно относить пациентов к более высокому уровню риска, чем другие врачи. Вариабельность внутри наблюдателя относится к отклонениям оценки конкретного наблюдателя у конкретного пациента, которые не являются частью систематической разницы.
ICC создан для применения к взаимозаменяемым измерениям, то есть сгруппированным данным, в которых нет значимого способа упорядочить измерения внутри группы. Если при оценке соответствия среди наблюдателей одни и те же наблюдатели оценивают каждый изучаемый элемент, то, вероятно, будут существовать систематические различия между наблюдателями, что противоречит идее взаимозаменяемости. Если ICC используется в ситуации, когда существуют систематические различия, результатом является составная мера изменчивости внутри и между наблюдателями. Одной из ситуаций, когда разумно можно предположить, что взаимозаменяемость сохраняется, является ситуация, когда образец, подлежащий оценке, скажем, образец крови, делится на несколько аликвот, и эти аликвоты измеряются отдельно на одном и том же приборе. В этом случае возможность замены будет сохраняться до тех пор, пока не будет наблюдаться влияние последовательности анализа проб.
Поскольку коэффициент внутриклассовой корреляции представляет собой совокупность изменчивости внутри наблюдателя и между наблюдателями, его результаты иногда считаются трудными для интерпретации, когда наблюдатели не взаимозаменяемы. Коэна Альтернативные меры, такие как статистика каппы , каппа Флейсса и коэффициент корреляции согласия. [12] были предложены в качестве более подходящей меры согласия между необменными наблюдателями.
Расчет в пакетах программ
[ редактировать ]ICC поддерживается в пакете программного обеспечения с открытым исходным кодом R (с использованием функции «icc» в пакетах psy или irr или через функцию «ICC» в пакете psych .) rptR Пакет [13] предоставляет методы оценки ICC и повторяемости для данных с гауссовским, биномиальным и пуассоновским распределением в рамках смешанной модели. Примечательно, что пакет позволяет оценивать скорректированный ICC (т. е. контролировать другие переменные) и вычисляет доверительные интервалы на основе параметрической начальной загрузки и значимости на основе перестановки остатков. Коммерческое программное обеспечение также поддерживает ICC, например Stata или SPSS. [14]
Конвенция Шраута и Фляйсса | Конвенция Макгроу и Вонга [15] | Имя в SPSS и Stata [16] [17] |
---|---|---|
ИКЦ(1,1) | Односторонний случайный выбор, одинарный балл ICC(1) | Односторонние случайные, одиночные измерения |
ИКЦ(2,1) | Двусторонний случайный выбор, одинарный балл ICC(A,1) | Двусторонняя случайность, отдельные измерения, абсолютное согласие |
ИКЦ(3,1) | Двусторонняя смешанная оценка, одинарная оценка ICC(C,1) | Двустороннее смешанное измерение, отдельные меры, последовательность |
неопределенный | Двусторонний случайный выбор, одинарный балл ICC(C,1) | Двусторонняя случайность, одиночные измерения, последовательность |
неопределенный | Двусторонняя смешанная оценка, одинарная оценка ICC(A,1) | Двустороннее смешанное, отдельные меры, абсолютное согласие |
ИКЦ(1,к) | Односторонний случайный результат, средний балл ICC(k) | Односторонние случайные, средние меры |
ИКЦ(2,к) | Двусторонний случайный выбор, средний балл ICC(A,k) | Двусторонняя случайность, средние показатели, абсолютное согласие |
ИКЦ(3,к) | Двустороннее смешанное, средний балл ICC(C,k) | Двустороннее смешанное измерение, средние показатели, последовательность |
неопределенный | Двусторонний случайный выбор, средний балл ICC(C,k) | Двусторонняя случайность, средние показатели, последовательность |
неопределенный | Двусторонняя смешанная оценка, средний балл ICC(A,k) | Двустороннее смешанное измерение, средние показатели, абсолютное согласие |
Эти три модели:
- Односторонние случайные эффекты: каждый испытуемый оценивается разными наборами из k случайно выбранных оценщиков;
- Двусторонняя случайность: случайным образом выбираются k оценщиков, затем каждый испытуемый оценивается одним и тем же набором k оценщиков;
- Двустороннее смешанное: определены k фиксированных оценщиков. Каждый предмет оценивается k оценщиками.
Количество измерений:
- Одиночные измерения: даже если в эксперименте проводится более одного измерения, надежность применяется к контексту, где будет выполняться одно измерение одного оценщика;
- Средние показатели: надежность применяется к контексту, где показатели k оценщиков будут усредняться по каждому предмету.
Последовательность или абсолютное согласие:
- Абсолютное согласие: представляет интерес согласие между двумя оценщиками, включая систематические ошибки обоих оценщиков и случайные остаточные ошибки;
- Согласованность: в контексте повторных измерений одним и тем же оценщиком систематические ошибки оценщика аннулируются и сохраняется только случайная остаточная ошибка.
Согласованность ICC не может быть оценена в модели односторонних случайных эффектов, поскольку нет способа разделить межэкспертные и остаточные дисперсии.
Обзор и повторный анализ трех моделей для отдельных показателей ICC с альтернативным рецептом их использования также были представлены Liljequist et al. (2019). [18]
Интерпретация
[ редактировать ]Чикетти (1994) [19] дает следующие часто цитируемые рекомендации по интерпретации каппа показателей межоценочного соглашения или ICC:
- Менее 0,40 – плохо.
- Между 0,40 и 0,59 — удовлетворительно.
- Между 0,60 и 0,74 — хорошо.
- Между 0,75 и 1,00 — отлично.
Другое руководство дано Ку и Ли (2016): [20]
- ниже 0,50: плохо
- от 0,50 до 0,75: умеренный
- от 0,75 до 0,90: хорошо
- выше 0,90: отлично
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Кох Г.Г. (1982). «Коэффициент внутриклассовой корреляции». В Сэмюэле Коце и Нормане Л. Джонсоне (ред.). Энциклопедия статистических наук . Том. 4. Нью-Йорк: Джон Уайли и сыновья . стр. 213–217.
- ^ Бартко Дж. Я. (август 1966 г.). «Коэффициент внутриклассовой корреляции как мера надежности». Психологические отчеты . 19 (1): 3–11. дои : 10.2466/pr0.1966.19.1.3 . ПМИД 5942109 . S2CID 145480729 .
- ^ Jump up to: а б с д и Фишер Р.А. (1954). Статистические методы для научных работников (Двенадцатое изд.). Эдинбург : Оливер и Бойд . ISBN 978-0-05-002170-5 .
- ^ Харрис Дж. А. (октябрь 1913 г.). «О расчете внутриклассовых и межклассовых коэффициентов корреляции по классовым моментам при большом числе возможных комбинаций». Биометрика . 9 (3/4): 446–472. дои : 10.1093/biomet/9.3-4.446 . JSTOR 2331901 .
- ^ Доннер А., Коваль Дж. Дж. (март 1980 г.). «Оценка внутриклассовой корреляции при анализе семейных данных». Биометрия . 36 (1): 19–25. дои : 10.2307/2530491 . JSTOR 2530491 . ПМИД 7370372 .
- ^ Доказательство того, что ICC в модели anova представляет собой корреляцию двух элементов: ocram [1] , Понимание коэффициента внутриклассовой корреляции, URL (версия: 5 декабря 2012 г.): [2]
- ^ dsaxton ( https://stats.stackexchange.com/users/78861/dsaxton ), Модель случайных эффектов: наблюдения с одного и того же уровня имеют ковариацию $\sigma^2$?, ссылка URL (версия: 22 марта 2016 г.)
- ^ Стэниш В., Тейлор Н. (1983). «Оценка коэффициента внутриклассовой корреляции для анализа ковариационной модели». Американский статистик . 37 (3): 221–224. дои : 10.2307/2683375 . JSTOR 2683375 .
- ^ Мюллер Р., Бюттнер П. (декабрь 1994 г.). «Критическое обсуждение коэффициентов внутриклассовой корреляции». Статистика в медицине . 13 (23–24): 2465–76. дои : 10.1002/сим.4780132310 . ПМИД 7701147 . См. также комментарий:
- Варга П. (1997). «Письмо в редакцию». Статистика в медицине . 16 (7): 821–823. doi : 10.1002/(SICI)1097-0258(19970415)16:7<821::AID-SIM558>3.0.CO;2-B . ПМИД 9131768 .
- ^ Макгроу, нокаут, Вонг С.П. (1996). «Формирование выводов о некоторых коэффициентах внутриклассовой корреляции». Психологические методы . 1 : 30–46. дои : 10.1037/1082-989X.1.1.30 . В статье есть несколько ошибок:
- Макгроу, нокаут, Вонг С.П. (1996). «Исправление МакГроу и Вонга (1996)». Психологические методы . 1 (4): 390. дои : 10.1037/1082-989x.1.4.390 .
- ^ Шраут П.Е., Фляйсс Дж.Л. (март 1979 г.). «Внутриклассовые корреляции: использование при оценке надежности оценщика». Психологический вестник . 86 (2): 420–8. дои : 10.1037/0033-2909.86.2.420 . ПМИД 18839484 .
- ^ Никерсон, Калифорния (декабрь 1997 г.). «Заметка о« Коэффициенте корреляции согласия для оценки воспроизводимости » ». Биометрия . 53 (4): 1503–1507. дои : 10.2307/2533516 . JSTOR 2533516 .
- ^ Стоффель М.А., Накагава С., Шилзет Дж. (2017). «rptR: оценка повторяемости и разложение дисперсии с помощью обобщенных линейных моделей смешанных эффектов» . Методы экологии и эволюции . 8 (11): 1639–1644. дои : 10.1111/2041-210x.12797 . ISSN 2041-210X .
- ^ МакЛеннан Р.Н. (ноябрь 1993 г.). «Надежность Interrater с SPSS для Windows 5.0». Американский статистик . 47 (4): 292–296. дои : 10.2307/2685289 . JSTOR 2685289 .
- ^ Макгроу, нокаут, Вонг С.П. (1996). «Формирование выводов о некоторых коэффициентах внутриклассовой корреляции». Психологические методы . 1 (1): 30–40. дои : 10.1037/1082-989X.1.1.30 .
- ^ Руководство пользователя Stata, выпуск 15 (PDF) . Колледж-Стейшн, Техас: Stata Press. 2017. С. 1101–1123. ISBN 978-1-59718-249-2 .
- ^ Хауэлл, округ Колумбия. «Коэффициенты внутриклассовой корреляции» (PDF) .
- ^ Лильеквист Д., Эльфвинг Б., Скавберг Роальдсен К. (2019). «Внутриклассовая корреляция – обсуждение и демонстрация основных особенностей» . ПЛОС ОДИН . 14 (7): e0219854. дои : 10.1371/journal.pone.0219854 . ПМК 6645485 . ПМИД 31329615 .
- ^ Чикетти Д.В. (1994). «Руководящие принципы, критерии и практические правила оценки нормированных и стандартизированных инструментов оценки в психологии». Психологическая оценка . 6 (4): 284–290. дои : 10.1037/1040-3590.6.4.284 .
- ^ Ку Т.К., Ли М.Ю. (июнь 2016 г.). «Руководство по выбору и представлению коэффициентов внутриклассовой корреляции для исследований надежности» . Журнал хиропрактики медицины . 15 (2): 155–63. дои : 10.1016/j.jcm.2016.02.012 . ПМЦ 4913118 . ПМИД 27330520 .