Каппа Флейса

Каппа Флейса (названная в честь Джозефа Л. Фляйсса ) — это статистическая мера для оценки надежности согласия между фиксированным количеством оценщиков при присвоении категориальных рейтингов ряду элементов или классификации элементов. Это контрастирует с другими каппами, такими как каппа Коэна , которые работают только при оценке согласия между не более чем двумя оценщиками или внутриоценочной надежности (для одного оценщика по сравнению с самим собой). Эта мера рассчитывает степень согласия классификации по сравнению с той, которую можно было бы ожидать случайно.

Каппа Флейса может использоваться с двоичной или номинальной шкалой . Его также можно применять к порядковым данным (ранжированным данным): онлайн-документация MiniTab. ^{[ 1 ]} приводит пример. Однако в этом документе отмечается: «Когда у вас есть порядковые оценки, такие как рейтинги серьезности дефектов по шкале от 1 до 5, коэффициенты Кендалла , которые учитывают порядок, обычно являются более подходящей статистикой для определения связи, чем одна каппа». Однако имейте в виду, что ранговые коэффициенты Кендалла подходят только для ранговых данных.

Введение

Каппа Флейса является обобщением статистики Пи Скотта : ^{[ 2 ]} статистическая надежности мера межоценочной . ^{[ 3 ]} Это также связано со статистикой каппа Коэна и статистикой J Юдена , которая может быть более подходящей в определенных случаях. ^{[ 4 ]} В то время как пи Скотта и каппа Коэна работают только для двух оценщиков, каппа Флейса работает для любого количества оценщиков, дающих категориальные оценки фиксированному количеству элементов, при условии, что для каждого элемента оценщики выбираются случайным образом. Его можно интерпретировать как выражение степени, в которой наблюдаемая степень согласия между оценщиками превышает то, что можно было бы ожидать, если бы все оценщики выставляли свои оценки совершенно случайным образом. Важно отметить, что тогда как каппа Коэна предполагает, что одни и те же два оценщика оценили набор элементов, каппа Фляйсса конкретно допускает, что, хотя существует фиксированное количество оценщиков (например, три), разные элементы могут оцениваться разными людьми. ^{[ 3 ]} То есть пункт 1 оценивается оценщиками A, B и C; но пункт 2 может быть оценен оценщиками D, E и F. Условие случайной выборки среди оценщиков делает каппу Флейса непригодной для случаев, когда все оценщики оценивают всех пациентов. ^{[ 5 ]}

Соглашение можно представить следующим образом: если фиксированное количество людей присваивает числовые оценки ряду предметов, то каппа даст меру того, насколько последовательны оценки. Каппа, $\kappa \,$ , можно определить как,

(1) $\kappa ={\frac {{\bar {P}}-{\bar {P_{e}}}}{1-{\bar {P_{e}}}}}$

Фактор $1-{\bar {P_{e}}}$ дает степень согласия, которая достижима выше случайности, и, ${\bar {P}}-{\bar {P_{e}}}$ дает степень согласия, фактически достигнутую сверх случайности. Если оценщики полностью согласны, то $\kappa =1~$ . Если между оценщиками нет согласия (кроме того, что можно было бы ожидать случайно), то $\kappa \leq 0$ .

Примером использования каппы Флейса может быть следующий: рассмотрим нескольких психиатров, которых попросили осмотреть десять пациентов. Каждому пациенту 14 психиатров ставят один из возможных пяти диагнозов. Они компилируются в матрицу, и каппа Флейса может быть рассчитана на основе этой матрицы (см. пример ниже ), чтобы показать степень согласия между психиатрами, превышающую уровень согласия, ожидаемого случайно.

Определение

Пусть $N$ — общее количество предметов, пусть $n$ — количество оценок по каждому предмету и пусть $k$ — количество категорий, по которым разбиты задания. Предметы индексируются $i = 1, ..., N$ , а категории индексируются $j = 1, ..., k$ . Пусть $n ij$ представляет собой количество оценщиков, отнесших $i$ -й испытуемый к $j$ -й категории.

Сначала вычислите $p j$ , долю всех заданий, которые относились к $j$ -й категории:

(2) $p_{j}={\frac {1}{Nn}}\sum _{i=1}^{N}n_{ij},\quad \quad 1=\sum _{j=1}^{k}p_{j}$

Теперь посчитаем $P_{i}\,$ , степень согласия оценщиков по $i$ -му предмету (т. е. вычислить, сколько пар «оценщик-оценщик» согласны по отношению к числу всех возможных пар «оценщик-оценщик»):

(3)

{\begin{aligned}P_{i}&={\frac {1}{n(n-1)}}\sum _{j=1}^{k}n_{ij}(n_{ij}-1)\\&={\frac {1}{n(n-1)}}\sum _{j=1}^{k}(n_{ij}^{2}-n_{ij})\\&={\frac {1}{n(n-1)}}{\biggl [}\sum _{j=1}^{k}{\bigl (}n_{ij}^{2}{\bigr )}-n{\biggr ]}\end{aligned}}

Обратите внимание, что $P_{i}$ ограничено между $0$ , когда рейтинги присваиваются одинаково по всем категориям, и $1$ , когда все рейтинги присваиваются одной категории.

Теперь вычислите ${\bar {P}}$ , среднее значение $P_{i}$ 'песок ${\bar {P_{e}}}$ , которые входят в формулу для $\kappa$ :

(4) ${\begin{aligned}{\bar {P}}&={\frac {1}{N}}\sum _{i=1}^{N}P_{i}\\&={\frac {1}{Nn(n-1)}}{\biggl [}\sum _{i=1}^{N}\sum _{j=1}^{k}{\bigl (}n_{ij}^{2}{\bigr )}-Nn{\biggr ]}\end{aligned}}$

(5) ${\bar {P_{e}}}=\sum _{j=1}^{k}p_{j}^{2}$

Рабочий пример

Таблица значений для расчета проработанного примера
$n_{ij}$	1	2	3	4	5	$P_{i}\,$
1	0	0	0	0	14	1.000
2	0	2	6	4	2	0.253
3	0	0	3	5	6	0.308
4	0	3	9	2	0	0.440
5	2	2	8	1	1	0.330
6	7	7	0	0	0	0.462
7	3	2	6	3	0	0.242
8	2	5	3	2	2	0.176
9	6	5	2	1	0	0.286
10	0	2	2	3	7	0.286
Общий	20	28	39	21	32
$p_{j}\,$	0.143	0.200	0.279	0.150	0.229

В следующем примере для каждого из десяти «субъектов» ( $N$ ) четырнадцать оценщиков ( $n$ ), выбранных из большей группы, присвойте в общей сложности пять категорий ( $k$ ). Категории представлены в столбцах, а предметы — в строках. В каждой ячейке указано количество оценщиков, отнесших указанный (строку) субъект к указанной (столбцу) категории.

В следующей таблице, учитывая, что $N=10$ , $n=14$ , и $k=5$ . Значение $p_{j}$ представляет собой долю всех назначений, которые были сделаны $j$ ая категория. Например, взяв первый столбец $p_{1}={\frac {0+0+0+0+2+7+3+2+6+0}{140}}=0.143,$ и взяв второй ряд, $P_{2}={\frac {1}{14(14-1)}}\left(0^{2}+2^{2}+6^{2}+4^{2}+2^{2}-14\right)=0.253.$

Чтобы вычислить ${\bar {P}}$ , нам нужно знать сумму $P_{i}$ , $\sum _{i=1}^{N}P_{i}=1.000+0.253+\cdots +0.286+0.286=3.780.$

По всему листу,

{\begin{aligned}{\bar {P}}&={\frac {1}{(10)}}(3.780)=0.378\\{\bar {P}}_{e}&=0.143^{2}+0.200^{2}+0.279^{2}+0.150^{2}+0.229^{2}=0.213\\\kappa &={\frac {0.378-0.213}{1-0.213}}=0.210\end{aligned}}

Интерпретация

Ландис и Кох (1977) дали следующую таблицу для интерпретации. $\kappa$ значения для примера с двумя аннотаторами и двумя классами. ^{[ 6 ]} Однако эта таблица ни в коем случае не является общепринятой. Они не предоставили никаких доказательств в поддержку этого, вместо этого основываясь на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными. ^{[ 7 ]} так как количество категорий и предметов будет влиять на величину значения. Например, каппа выше, когда категорий меньше. ^{[ 8 ]}

Состояние	$\kappa$	Интерпретация
Субъективный пример: только для двух аннотаторов, на двух занятиях. ^{[ 6 ]}	< 0	Плохое соглашение
	0.01 – 0.20	Небольшое согласие
	0.21 – 0.40	Справедливое соглашение
	0.41 – 0.60	Умеренное согласие
	0.61 – 0.80	Существенное соглашение
	0.81 – 1.00	Почти идеальное согласие

Тесты значимости

Статистические пакеты могут рассчитывать стандартную оценку (Z-показатель) для каппы Коэна или каппы Фляйсса, которую можно преобразовать в P-значение . Однако даже когда значение P достигает порога статистической значимости (обычно менее 0,05), это указывает лишь на то, что согласие между оценщиками значительно лучше, чем можно было бы ожидать случайно. Значение p само по себе не говорит вам, достаточно ли хорошее согласие, чтобы иметь высокую прогностическую ценность.

См. также

Ссылки

^ Статистика Каппа для анализа соглашения об атрибутах, MiniTab Inc , получена 22 января 2019 г.
^ Скотт, В. (1955), «Надежность контент-анализа: случай кодирования номинальной шкалы», Public Opinion Quarterly , 19 (3): 321–325, doi : 10.1086/266577 , JSTOR 2746450 .
^ Перейти обратно: ^а ^б Фляйсс, Дж. Л. (1971), «Измерение согласия по номинальной шкале среди многих оценщиков», Psychoological Bulletin , 76 (5): 378–382, doi : 10.1037/h0031619 .
^ Пауэрс, Дэвид М.В. (2012), Проблема с каппой , том. Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012), Совместный семинар ROBUS-UNSUP., Ассоциация компьютерной лингвистики .
^ Халлгрен, Кевин А. (2012), «Вычисление межэкспертной надежности данных наблюдений: обзор и руководство», Учебные пособия по количественным методам в психологии , 8 (1): 3–34, doi : 10.20982/tqmp.08.1.p023 , ПМИД 22833776 .
^ Перейти обратно: ^а ^б Лэндис, младший; Кох, Г.Г. (1977), «Измерение согласия наблюдателя для категориальных данных» , Biometrics , 33 (1): 159–174, doi : 10.2307/2529310 , JSTOR 2529310 , PMID 843571 .
^ Гвет, К.Л. (2014), «Глава 6. (Гейтерсбург: Advanced Analytics, LLC)», Справочник по межоценочной надежности (PDF) (4-е изд.), Advanced Analytics, LLC, ISBN 978-0970806284 .
^ Сим, Дж.; Райт, CC (2005), «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки», Physical Therapy , 85 (3): 257–268, doi : 10.1093/ptj/85.3.257 .

Дальнейшее чтение

Фляйсс, Дж.Л.; Коэн, Дж. (1973), «Эквивалентность взвешенной каппы и коэффициента внутриклассовой корреляции как меры надежности», Educational and Psychoological Measurement , 33 (3): 613–619, doi : 10.1177/001316447303300309 , S2CID 145183399 .
Фляйсс, Дж.Л. (1981), Статистические методы определения ставок и пропорций (2-е изд.), Нью-Йорк: John Wiley & Sons , стр. 38–46 .
Гвет, К.Л. (2008), «Вычисление межэкспертной надежности и ее дисперсии при наличии высокого согласия» (PDF) , Британский журнал математической и статистической психологии , 61 (Pt 1): 29–48, doi : 10.1348/000711006X126600 , ПМИД 18482474 , S2CID 13915043 , заархивировано из оригинала (PDF) 3 марта 2016 г. , получено 16 июня 2010 г.

Внешние ссылки

Облачный анализ надежности между экспертами, каппа Коэна, AC1/AC2 Гвета, альфа Криппендорфа, Бреннан-Предигер, обобщенная каппа Фляйсса, коэффициенты внутриклассовой корреляции
Каппа: плюсы и минусы - содержит хорошую библиографию статей о коэффициенте.
Онлайн-калькулятор каппы. Архивировано 28 февраля 2009 г. на Wayback Machine - рассчитывает вариацию каппы Фляйсса.

[MiniTab-1] Статистика Каппа для анализа соглашения об атрибутах, MiniTab Inc , получена 22 января 2019 г.

[Scott1955-2] Скотт, В. (1955), «Надежность контент-анализа: случай кодирования номинальной шкалы», Public Opinion Quarterly , 19 (3): 321–325, doi : 10.1086/266577 , JSTOR 2746450 .

[Fleiss1971-3] Перейти обратно: ^а ^б Фляйсс, Дж. Л. (1971), «Измерение согласия по номинальной шкале среди многих оценщиков», Psychoological Bulletin , 76 (5): 378–382, doi : 10.1037/h0031619 .

[Powers2012-4] Пауэрс, Дэвид М.В. (2012), Проблема с каппой , том. Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012), Совместный семинар ROBUS-UNSUP., Ассоциация компьютерной лингвистики .

[Hallgren2012-5] Халлгрен, Кевин А. (2012), «Вычисление межэкспертной надежности данных наблюдений: обзор и руководство», Учебные пособия по количественным методам в психологии , 8 (1): 3–34, doi : 10.20982/tqmp.08.1.p023 , ПМИД 22833776 .

[Landis1977-6] Перейти обратно: ^а ^б Лэндис, младший; Кох, Г.Г. (1977), «Измерение согласия наблюдателя для категориальных данных» , Biometrics , 33 (1): 159–174, doi : 10.2307/2529310 , JSTOR 2529310 , PMID 843571 .

[Gwet2010-7] Гвет, К.Л. (2014), «Глава 6. (Гейтерсбург: Advanced Analytics, LLC)», Справочник по межоценочной надежности (PDF) (4-е изд.), Advanced Analytics, LLC, ISBN 978-0970806284 .

[Sim2005-8] Сим, Дж.; Райт, CC (2005), «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки», Physical Therapy , 85 (3): 257–268, doi : 10.1093/ptj/85.3.257 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]