Каппа Коэна
Коэффициент каппа Коэна ( κ , строчная греческая каппа ) — это статистика , которая используется для измерения межэкспертной надежности (а также внутриэкспертной надежности ) для качественных (категориальных) элементов. [1] Обычно считается, что это более надежный показатель, чем простой расчет процента согласия, поскольку κ учитывает возможность случайного возникновения согласия. Вокруг каппы Коэна существуют разногласия из-за сложности интерпретации показателей согласия. Некоторые исследователи предположили, что концептуально проще оценить разногласия между элементами. [2]
История
[ редактировать ]Первое упоминание о каппаподобной статистике принадлежит Гальтону в 1892 году. [3] [4]
Основополагающая статья, представляющая каппу как новую технику, была опубликована Джейкобом Коэном в журнале «Образовательные и психологические измерения» в 1960 году. [5]
Определение
[ редактировать ]Каппа Коэна измеряет согласие между двумя оценщиками, каждый из которых классифицирует N элементов в C взаимоисключающих категорий. Определение является
где p o — относительное наблюдаемое согласие между оценщиками, а p e — гипотетическая вероятность случайного согласия, используя наблюдаемые данные для расчета вероятностей того, что каждый наблюдатель случайно увидит каждую категорию. Если оценщики полностью согласны, то . Если между оценщиками нет согласия, кроме того, которое можно было бы ожидать случайно (как указано в p e ), . Вполне возможно, что статистика будет отрицательной. [6] что может произойти случайно, если между рейтингами двух оценщиков нет никакой связи, или может отражать реальную тенденцию оценщиков давать разные оценки.
Для k категорий необходимо N наблюдений для категоризации и сколько раз оценщик i предсказал категорию k :
Это получается из следующей конструкции:
Где — это предполагаемая вероятность того, что и оценщик 1, и оценщик 2 отнесут один и тот же элемент к категории k, в то время как — это предполагаемая вероятность того, что оценщик 1 классифицирует элемент как k (аналогично для оценщика 2).Отношение основан на предположении, что рейтинги двух оценщиков независимы . Термин оценивается с использованием количества элементов, классифицированных как k оценщиком 1 ( ) разделить на общее количество классифицируемых элементов ( ): (и аналогично для оценщика 2).
Матрица путаницы двоичной классификации
[ редактировать ]В традиционной матрице путаницы 2 × 2 , используемой в машинном обучении и статистике для оценки двоичных классификаций , формулу Каппа Коэна можно записать как: [7]
где TP — истинные положительные результаты, FP — ложные положительные результаты, TN — истинные отрицательные результаты, а FN — ложные отрицательные результаты. В этом случае каппа Коэна эквивалентна показателю навыков Хайдке, известному в метеорологии . [8] Впервые эта мера была введена Мириком Хаскеллом Дулитлом в 1888 году. [9]
Примеры
[ редактировать ]Простой пример
[ редактировать ]Предположим, вы анализировали данные, относящиеся к группе из 50 человек, подавших заявки на грант. Каждое предложение о гранте было прочитано двумя читателями, и каждый читатель сказал либо «Да», либо «Нет» на предложение. Предположим, что данные подсчета разногласий были следующими: где A и B — читатели, данные на главной диагонали матрицы (a и d) подсчитывают количество соглашений, а внедиагональные данные (b и c) подсчитывают количество разногласий:
Б А | Да | Нет |
---|---|---|
Да | а | б |
Нет | с | д |
например
Б А | Да | Нет |
---|---|---|
Да | 20 | 5 |
Нет | 10 | 15 |
Наблюдаемое пропорциональное согласие таково:
Чтобы вычислить p e (вероятность случайного согласия), отметим, что:
- Читатель А сказал «Да» 25 заявителям и «Нет» 25 заявителям. Таким образом, читатель А сказал «Да» в 50% случаев.
- Читатель Б сказал «Да» 30 претендентам и «Нет» 20 претендентам. Таким образом, читатель Б сказал «Да» в 60% случаев.
Таким образом, ожидаемая вероятность того, что оба наугад скажут «да», равна:
Сходным образом:
Общая вероятность случайного соглашения — это вероятность того, что они согласились либо «Да», либо «Нет», т. е.:
Итак, теперь, применяя нашу формулу для каппы Коэна, мы получаем:
Те же проценты, но разные цифры
[ редактировать ]Случай, который иногда считается проблемой с каппа Коэна, возникает при сравнении каппа, рассчитанного для двух пар оценщиков, с двумя оценщиками в каждой паре, имеющими одинаковое процентное согласие, но одна пара дает одинаковое количество оценок в каждом классе, в то время как другая пара дают очень разное количество оценок в каждом классе. [10] (В приведенных ниже случаях уведомление B имеет 70 «да» и 30 «нет» в первом случае, но во втором эти числа меняются местами.) Например, в следующих двух случаях существует равное согласие между A и B (60 из 100 в обоих случаях) с точки зрения согласия в каждом классе, поэтому мы ожидаем, что относительные значения каппы Коэна отразят это. Однако вычисление каппы Коэна для каждого:
Б А | Да | Нет |
---|---|---|
Да | 45 | 15 |
Нет | 25 | 15 |
Б А | Да | Нет |
---|---|---|
Да | 25 | 35 |
Нет | 5 | 35 |
мы обнаруживаем, что во втором случае наблюдается большее сходство между А и В по сравнению с первым. Это связано с тем, что, хотя процентное согласие одинаково, процентное совпадение, которое могло бы произойти «случайно», в первом случае значительно выше (0,54 по сравнению с 0,46).
Характеристики
[ редактировать ]Проверка гипотез и доверительный интервал
[ редактировать ]Значение P для каппа сообщается редко, вероятно, потому, что даже относительно низкие значения каппа, тем не менее, могут значительно отличаться от нуля, но не иметь достаточной величины, чтобы удовлетворить исследователей. [11] : 66 Тем не менее, его стандартная ошибка была описана. [12] и рассчитывается с помощью различных компьютерных программ. [13]
Доверительные интервалы для Каппа можно построить для ожидаемых значений Каппа, если бы мы проверили бесконечное количество элементов, используя следующую формулу: [1]
Где стандартный нормальный процентиль, когда , и
Это рассчитывается путем игнорирования того, что p e оценивается на основе данных, и рассмотрения p o как оцененной вероятности биномиального распределения с использованием асимптотической нормальности (т.е.: предполагая, что количество элементов велико и что p o не близко к либо 0, либо 1). (и CI в целом) также можно оценить с помощью методов начальной загрузки .
Интерпретация величины
[ редактировать ]Если статистическая значимость не является полезным ориентиром, какая величина каппа отражает адекватное согласие? Руководящие принципы были бы полезны, но на их величину могут влиять и другие факторы, помимо согласия, что делает интерпретацию данной величины проблематичной. Как отметили Сим и Райт, двумя важными факторами являются распространенность (равновероятны ли коды или их вероятности различаются) и систематическая ошибка (являются ли предельные вероятности для двух наблюдателей одинаковыми или разными). При прочих равных условиях каппа выше, когда коды равновероятны. С другой стороны, каппы выше, когда коды распределяются двумя наблюдателями асимметрично. В отличие от изменений вероятности, эффект систематической ошибки сильнее, когда Каппа мала, чем когда она велика. [14] : 261–262
Еще одним фактором является количество кодов. По мере увеличения количества кодов каппы становятся выше. На основе моделирования Бэйкман и его коллеги пришли к выводу, что для склонных к ошибкам наблюдателей значения каппа были ниже, когда кодов было меньше. И, в соответствии с заявлением Сима и Райтс о распространенности, каппы были выше, когда коды были примерно равновероятными. Таким образом, Бэйкман и др. пришел к выводу, что «ни одно значение каппы не может считаться универсально приемлемым». [15] : 357 Они также предоставляют компьютерную программу, которая позволяет пользователям вычислять значения каппы, указывая количество кодов, их вероятность и точность наблюдателя. Например, для равновероятных кодов и наблюдателей с точностью 85% значение каппа составляет 0,49, 0,60, 0,66 и 0,69, когда количество кодов равно 2, 3, 5 и 10 соответственно.
Тем не менее, в литературе появились рекомендации по величине. Возможно, первыми были Лэндис и Кох, [16] которые охарактеризовали значения <0 как указывающие на отсутствие согласия, 0–0,20 как незначительное, 0,21–0,40 как удовлетворительное, 0,41–0,60 как умеренное, 0,61–0,80 как существенное и 0,81–1 как почти идеальное согласие. Однако этот набор руководящих принципов ни в коем случае не является общепринятым; Лэндис и Кох не предоставили никаких доказательств в поддержку этого, вместо этого основываясь на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными. [17] Фляйсса [18] : 218 В равной степени произвольные рекомендации характеризуют каппу более 0,75 как отличную, от 0,40 до 0,75 — как удовлетворительную или хорошую, а ниже 0,40 — как плохую.
Каппа максимум
[ редактировать ]Каппа принимает свое теоретическое максимальное значение, равное 1, только тогда, когда оба наблюдателя одинаково распределяют коды, то есть когда соответствующие суммы строк и столбцов идентичны. Все, что меньше, — это меньше, чем идеальное согласие. Тем не менее, максимальное значение каппа, которое может быть достигнуто при неравных распределениях, помогает интерпретировать фактически полученное значение каппа. Уравнение для максимума κ : [19]
где , по-прежнему, ,
k = количество кодов, - вероятности строк, а — вероятности столбцов.
Ограничения
[ редактировать ]Каппа — это индекс, который учитывает наблюдаемое согласие по отношению к базовому соглашению. Однако исследователи должны тщательно рассмотреть, применимо ли базовое соглашение Каппы к конкретному вопросу исследования. Базовую линию Каппы часто называют совпадением случайно, что верно лишь отчасти. Базовое соглашение Каппы — это соглашение, которого можно было бы ожидать из-за случайного распределения, учитывая количества, указанные в предельных суммах квадратной таблицы непредвиденных обстоятельств. Таким образом, κ = 0, когда наблюдаемое распределение является явно случайным, независимо от количественного расхождения, ограниченного маргинальными итогами. Однако во многих случаях исследователей должно больше интересовать количественное расхождение в предельных итогах, чем расхождение в распределении, описываемое дополнительной информацией на диагонали квадратной таблицы непредвиденных обстоятельств. Таким образом, для многих приложений базовая линия Каппы скорее отвлекает, чем проясняет. Рассмотрим следующий пример:
Ссылка | |||
---|---|---|---|
Г | Р | ||
Сравнение | Г | 1 | 14 |
Р | 0 | 1 |
Пропорция несогласия составляет 14/16 или 0,875. Разногласия возникают из-за количества, поскольку распределение оптимально. κ составляет 0,01.
Ссылка | |||
---|---|---|---|
Г | Р | ||
Сравнение | Г | 0 | 1 |
Р | 1 | 14 |
Пропорция несогласия составляет 2/16 или 0,125. Разногласия возникают из-за распределения, поскольку количества идентичны. Каппа равна -0,07.
Здесь сообщение о разногласиях в количестве и распределении является информативным, в то время как Каппа скрывает информацию. Кроме того, каппа создает некоторые проблемы при расчете и интерпретации, поскольку каппа — это соотношение. Отношение Каппы может возвращать неопределенное значение из-за нуля в знаменателе. Более того, соотношение не раскрывает ни числитель, ни знаменатель. Для исследователей более информативно сообщать о разногласиях по двум компонентам: количеству и распределению. Эти два компонента более четко описывают взаимосвязь между категориями, чем одна сводная статистика. Когда целью является точность прогнозирования, исследователям будет легче начать думать о способах улучшения прогноза, используя два компонента количества и распределения, а не одно соотношение каппа. [2]
Некоторые исследователи выразили обеспокоенность по поводу склонности κ принимать частоты наблюдаемых категорий как данность, что может сделать его ненадежным для измерения согласия в таких ситуациях, как диагностика редких заболеваний. В таких ситуациях κ имеет тенденцию недооценивать согласие по редкой категории. [20] По этой причине κ считается слишком консервативной мерой согласия. [21] Другие [22] [ нужна ссылка ] оспаривайте утверждение, что каппа «принимает во внимание» случайное соглашение. Чтобы сделать это эффективно, потребуется точная модель того, как случайность влияет на решения оценщиков. Так называемая случайная корректировка статистики каппа предполагает, что, если нет полной уверенности, оценщики просто догадываются – очень нереалистичный сценарий. Более того, некоторые работы [23] показали, как каппа-статистика может привести к неправильным выводам в отношении несбалансированных данных.
Связанная статистика
[ редактировать ]Пи Скотта
[ редактировать ]Похожая статистика, названная «пи» , была предложена Скоттом (1955). Каппа Коэна и пи Скотта различаются способом p e расчета .
Каппа Флейса
[ редактировать ]Обратите внимание, что каппа Коэна измеряет согласие только между двумя оценщиками. Аналогичную меру согласия ( каппа Флейса ), используемую при наличии более двух оценщиков, см. в Fleiss (1971). Каппа Флейса, однако, представляет собой многооценочное обобщение статистики Пи Скотта , а не каппы Коэна. Каппа также используется для сравнения производительности в машинном обучении , но считается, что направленная версия, известная как информированность или статистика Юдена J, более подходит для обучения с учителем. [24]
Взвешенная каппа
[ редактировать ]Взвешенная каппа позволяет по-разному оценивать разногласия. [25] и особенно полезен при заказе кодов. [11] : 66 Используются три матрицы: матрица наблюдаемых оценок, матрица ожидаемых оценок, основанная на случайном согласии, и матрица весов. Ячейки весовой матрицы, расположенные по диагонали (с верхнего левого угла на нижний правый), представляют согласие и, следовательно, содержат нули. Внедиагональные ячейки содержат веса, указывающие на серьезность этого несогласия. Часто ячейкам, расположенным одна за пределами диагонали, присваивается вес 1, двум — 2 и т. д.
Уравнение для взвешенного κ:
где k = количество кодов и , , и являются элементами весовой, наблюдаемой и ожидаемой матриц соответственно. Когда диагональные ячейки содержат веса 0, а веса всех недиагональных ячеек — 1, эта формула дает то же значение каппа, что и расчет, приведенный выше.
См. также
[ редактировать ]Дальнейшее чтение
[ редактировать ]- Банерджи, М.; Капоццоли, Мишель; Максвини, Лаура; Синха, Дебаджьоти (1999). «За пределами каппы: обзор мер по соглашению между экспертами» . Канадский статистический журнал . 27 (1): 3–23. дои : 10.2307/3315487 . JSTOR 3315487 . S2CID 37082712 .
- Чикко, Д.; Уорренс, MJ; Джурман, Г. (2021). «Коэффициент корреляции Мэтьюза (MCC) более информативен, чем показатель Каппы и Брайера Коэна при оценке бинарной классификации» . Доступ IEEE . 9 : 78368–81. Бибкод : 2021IEEA...978368C . дои : 10.1109/access.2021.3084050 . hdl : 10281/430460 . S2CID 235308708 .
- Коэн, Джейкоб (1960). «Коэффициент согласия для номинальных шкал». Образовательные и психологические измерения . 20 (1): 37–46. дои : 10.1177/001316446002000104 . HDL : 1942/28116 . S2CID 15926286 .
- Коэн, Дж. (1968). «Взвешенная каппа: соглашение по номинальной шкале с учетом масштабного несогласия или частичного кредита». Психологический вестник . 70 (4): 213–220. дои : 10.1037/h0026256 . ПМИД 19673146 .
- Фляйсс, Дж.Л.; Коэн, Дж. (1973). «Эквивалентность взвешенной каппы и коэффициента внутриклассовой корреляции как меры надежности». Образовательные и психологические измерения . 33 (3): 613–9. дои : 10.1177/001316447303300309 . S2CID 145183399 .
- Сим, Дж.; Райт, CC (2005). «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки» . Физиотерапия . 85 (3): 257–268. дои : 10.1093/ptj/85.3.257 . ПМИД 15733050 .
- Уорренс, Дж. (2011). «Каппа Коэна — это средневзвешенное значение» . Статистическая методология . 8 (6): 473–484. дои : 10.1016/j.stamet.2011.06.002 . hdl : 1887/18062 .
Внешние ссылки
[ редактировать ]- Каппа, ее значение, проблемы и несколько альтернатив (ссылка неактивна по состоянию на 16 декабря 2022 г.)
- Статистика каппы: плюсы и минусы
- Реализации программного обеспечения
- Программа для Windows «ComKappa» для каппы, взвешенной каппы и максимальной каппы (ошибка «Доступ запрещен (код ошибки 1020)» от 16 декабря 2022 г.)
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Макхью, Мэри Л. (2012). «Надежность межоценщика: статистика каппа» . Биохимия медика . 22 (3): 276–282. дои : 10.11613/bm.2012.031 . ПМК 3900052 . ПМИД 23092060 .
- ^ Перейти обратно: а б Понтиус, Роберт; Миллонес, Марко (2011). «Смерть Каппы: рождение разногласий по количеству и разногласий по распределению оценок точности» . Международный журнал дистанционного зондирования . 32 (15): 4407–4429. Бибкод : 2011IJRS...32.4407P . дои : 10.1080/01431161.2011.552923 . S2CID 62883674 .
- ^ Гальтон, Ф. (1892) Отпечатки пальцев Макмиллан, Лондон.
- ^ Смитон, Северная Каролина (1985). «Ранняя история статистики Каппа». Биометрия . 41 (3): 795. JSTOR 2531300 .
- ^ Коэн, Джейкоб (1960). «Коэффициент согласия для номинальных шкал». Образовательные и психологические измерения . 20 (1): 37–46. дои : 10.1177/001316446002000104 . HDL : 1942/28116 . S2CID 15926286 .
- ^ Сим, Юлиус; Райт, Крис С. (2005). «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки» . Физиотерапия . 85 (3): 257–268. дои : 10.1093/ptj/85.3.257 . ISSN 1538-6724 . ПМИД 15733050 .
- ^ Чикко Д.; Уорренс М.Дж.; Юрман Г. (июнь 2021 г.). «Коэффициент корреляции Мэтьюза (MCC) более информативен, чем показатель Каппы и Брайера Коэна при оценке бинарной классификации» . Доступ IEEE . 9 : 78368–78381. Бибкод : 2021IEEA...978368C . дои : 10.1109/ACCESS.2021.3084050 . hdl : 10281/430460 .
- ^ Хайдке, П. (1 декабря 1926 г.). «Расчет успешности и качества прогнозов силы ветра в службе штормовых предупреждений». Географический Анналер . 8 (4): 301–349. дои : 10.1080/20014422.1926.11881138 . ISSN 2001-4422 .
- ^ Философское общество Вашингтона (Вашингтон, округ Колумбия) (1887 г.). Бюллетень Философского общества Вашингтона . Том. 10. Вашингтон, округ Колумбия: Опубликовано при сотрудничестве Смитсоновского института. п. 83.
- ^ Килем Гвет (май 2002 г.). «Надежность между экспертами: зависимость от распространенности признаков и предельной однородности» (PDF) . Статистические методы оценки межэкспертной надежности . 2 : 1–10. Архивировано из оригинала (PDF) 7 июля 2011 г. Проверено 2 февраля 2011 г.
- ^ Перейти обратно: а б Бейкман, Р.; Готтман, Дж. М. (1997). Наблюдение за взаимодействием: введение в последовательный анализ (2-е изд.). Кембридж, Великобритания: Издательство Кембриджского университета. ISBN 978-0-521-27593-4 .
- ^ Фляйсс, Дж.Л.; Коэн, Дж.; Эверитт, бакалавр наук (1969). «Большая выборка стандартных ошибок каппы и взвешенная каппа». Психологический вестник . 72 (5): 323–327. дои : 10.1037/h0028106 .
- ^ Робинсон, БФ; Бейкман, Р. (1998). «ComKappa: программа для Windows 95 для расчета каппы и связанной с ней статистики» . Методы, инструменты и компьютеры исследования поведения . 30 (4): 731–732. дои : 10.3758/BF03209495 .
- ^ Сим, Дж; Райт, CC (2005). «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки» . Физиотерапия . 85 (3): 257–268. дои : 10.1093/ptj/85.3.257 . ПМИД 15733050 .
- ^ Бейкман, Р.; Кера, В.; Макартур, Д.; Робинсон, БФ (1997). «Обнаружение последовательных закономерностей и определение их надежности с помощью ошибочных наблюдателей». Психологические методы . 2 (4): 357–370. дои : 10.1037/1082-989X.2.4.357 .
- ^ Лэндис, младший; Кох, Г.Г. (1977). «Измерение согласия наблюдателя для категориальных данных» . Биометрия . 33 (1): 159–174. дои : 10.2307/2529310 . JSTOR 2529310 . ПМИД 843571 . S2CID 11077516 .
- ^ Гвет, К. (2010). « Справочник по межэкспертной надежности (второе издание) » ISBN 978-0-9708062-2-2 [ нужна страница ]
- ^ Фляйсс, Дж. Л. (1981). Статистические методы определения ставок и пропорций (2-е изд.). Нью-Йорк: Джон Уайли. ISBN 978-0-471-26370-8 .
- ^ Умеш, ООН; Петерсон, РА; Заубер МХ (1989). «Межсудейское соглашение и максимальное значение каппы». Образовательные и психологические измерения . 49 (4): 835–850. дои : 10.1177/001316448904900407 . S2CID 123306239 .
- ^ Виера, Энтони Дж.; Гаррет, Джоан М. (2005). «Понимание соглашения между наблюдателями: статистика каппы». Семейная медицина . 37 (5): 360–363. ПМИД 15883903 .
- ^ Стрийбос, Дж.; Мартенс, Р.; Принс, Ф.; Йохемс, В. (2006). «Контент-анализ: о чем они говорят?». Компьютеры и образование . 46 : 29–48. CiteSeerX 10.1.1.397.5780 . doi : 10.1016/j.compedu.2005.04.002 . S2CID 14183447 .
- ^ Юберсакс, Дж.С. (1987). «Разнообразие моделей принятия решений и измерение согласия между экспертами» (PDF) . Психологический вестник . 101 : 140–146. CiteSeerX 10.1.1.498.4965 . дои : 10.1037/0033-2909.101.1.140 . S2CID 39240770 . Архивировано из оригинала (PDF) 3 марта 2016 г. Проверено 16 октября 2010 г.
- ^ Дельгадо, Росарио; Тибау, Ксавье-Андони (26 сентября 2019 г.). «Почему следует избегать использования каппы Коэна в качестве показателя эффективности в классификации» . ПЛОС ОДИН . 14 (9): e0222916. Бибкод : 2019PLoSO..1422916D . дои : 10.1371/journal.pone.0222916 . ISSN 1932-6203 . ПМК 6762152 . ПМИД 31557204 .
- ^ Пауэрс, Дэвид М.В. (2012). «Проблема с Каппой» (PDF) . Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012) Совместный семинар ROBUS-UNSUP . Архивировано из оригинала (PDF) 18 мая 2016 г. Проверено 20 июля 2012 г.
- ^ Коэн, Дж. (1968). «Взвешенная каппа: соглашение по номинальной шкале с учетом несогласия по шкале или частичного кредита». Психологический вестник . 70 (4): 213–220. дои : 10.1037/h0026256 . ПМИД 19673146 .