Jump to content

Каппа Флейса

Это хорошая статья. Нажмите здесь для получения дополнительной информации.

Каппа Флейса (названная в честь Джозефа Л. Фляйсса ) — это статистическая мера для оценки надежности согласия между фиксированным количеством оценщиков при присвоении категориальных рейтингов ряду элементов или классификации элементов. Это контрастирует с другими каппами, такими как каппа Коэна , которые работают только при оценке согласия между не более чем двумя оценщиками или внутриоценочной надежности (для одного оценщика по сравнению с самим собой). Эта мера рассчитывает степень согласия классификации по сравнению с той, которую можно было бы ожидать случайно.

Каппа Флейса может использоваться с двоичной или номинальной шкалой . Его также можно применять к порядковым данным (ранжированным данным): онлайн-документация MiniTab. [ 1 ] приводит пример. Однако в этом документе отмечается: «Когда у вас есть порядковые оценки, такие как рейтинги серьезности дефектов по шкале от 1 до 5, коэффициенты Кендалла , которые учитывают порядок, обычно являются более подходящей статистикой для определения связи, чем одна каппа». Однако имейте в виду, что ранговые коэффициенты Кендалла подходят только для ранговых данных.

Введение

[ редактировать ]

Каппа Флейса является обобщением статистики Пи Скотта : [ 2 ] статистическая надежности мера межоценочной . [ 3 ] Это также связано со статистикой каппа Коэна и статистикой J Юдена , которая может быть более подходящей в определенных случаях. [ 4 ] В то время как пи Скотта и каппа Коэна работают только для двух оценщиков, каппа Флейса работает для любого количества оценщиков, дающих категориальные оценки фиксированному количеству элементов, при условии, что для каждого элемента оценщики выбираются случайным образом. Его можно интерпретировать как выражение степени, в которой наблюдаемая степень согласия между оценщиками превышает то, что можно было бы ожидать, если бы все оценщики выставляли свои оценки совершенно случайным образом. Важно отметить, что тогда как каппа Коэна предполагает, что одни и те же два оценщика оценили набор элементов, каппа Фляйсса конкретно допускает, что, хотя существует фиксированное количество оценщиков (например, три), разные элементы могут оцениваться разными людьми. [ 3 ] То есть пункт 1 оценивается оценщиками A, B и C; но пункт 2 может быть оценен оценщиками D, E и F. Условие случайной выборки среди оценщиков делает каппу Флейса непригодной для случаев, когда все оценщики оценивают всех пациентов. [ 5 ]

Соглашение можно представить следующим образом: если фиксированное количество людей присваивает числовые оценки ряду предметов, то каппа даст меру того, насколько последовательны оценки. Каппа, , можно определить как,

(1)

Фактор дает степень согласия, которая достижима выше случайности, и, дает степень согласия, фактически достигнутую сверх случайности. Если оценщики полностью согласны, то . Если между оценщиками нет согласия (кроме того, что можно было бы ожидать случайно), то .

Примером использования каппы Флейса может быть следующий: рассмотрим нескольких психиатров, которых попросили осмотреть десять пациентов. Каждому пациенту 14 психиатров ставят один из возможных пяти диагнозов. Они компилируются в матрицу, и каппа Флейса может быть рассчитана на основе этой матрицы (см. пример ниже ), чтобы показать степень согласия между психиатрами, превышающую уровень согласия, ожидаемого случайно.

Определение

[ редактировать ]

Пусть N — общее количество предметов, пусть n — количество оценок по каждому предмету и пусть k — количество категорий, по которым разбиты задания. Предметы индексируются i = 1, ..., N , а категории индексируются j = 1, ..., k . Пусть n ij представляет собой количество оценщиков, отнесших i -й испытуемый к j -й категории.

Сначала вычислите p j , долю всех заданий, которые относились к j -й категории:

(2)

Теперь посчитаем , степень согласия оценщиков по i -му предмету (т. е. вычислить, сколько пар «оценщик-оценщик» согласны по отношению к числу всех возможных пар «оценщик-оценщик»):

(3)

Обратите внимание, что ограничено между 0 , когда рейтинги присваиваются одинаково по всем категориям, и 1 , когда все рейтинги присваиваются одной категории.

Теперь вычислите , среднее значение 'песок , которые входят в формулу для :

(4)

(5)

Рабочий пример

[ редактировать ]
Таблица значений для расчета проработанного примера
1 2 3 4 5
1 0 0 0 0 14 1.000
2 0 2 6 4 2 0.253
3 0 0 3 5 6 0.308
4 0 3 9 2 0 0.440
5 2 2 8 1 1 0.330
6 7 7 0 0 0 0.462
7 3 2 6 3 0 0.242
8 2 5 3 2 2 0.176
9 6 5 2 1 0 0.286
10 0 2 2 3 7 0.286
Общий 20 28 39 21 32
0.143 0.200 0.279 0.150 0.229

В следующем примере для каждого из десяти «субъектов» ( ) четырнадцать оценщиков ( ), выбранных из большей группы, присвойте в общей сложности пять категорий ( ). Категории представлены в столбцах, а предметы — в строках. В каждой ячейке указано количество оценщиков, отнесших указанный (строку) субъект к указанной (столбцу) категории.

В следующей таблице, учитывая, что , , и . Значение представляет собой долю всех назначений, которые были сделаны ая категория. Например, взяв первый столбец и взяв второй ряд,

Чтобы вычислить , нам нужно знать сумму ,

По всему листу,

Интерпретация

[ редактировать ]

Ландис и Кох (1977) дали следующую таблицу для интерпретации. значения для примера с двумя аннотаторами и двумя классами. [ 6 ] Однако эта таблица ни в коем случае не является общепринятой. Они не предоставили никаких доказательств в поддержку этого, вместо этого основываясь на личном мнении. Было отмечено, что эти рекомендации могут быть скорее вредными, чем полезными. [ 7 ] так как количество категорий и предметов будет влиять на величину значения. Например, каппа выше, когда категорий меньше. [ 8 ]

Состояние Интерпретация
Субъективный пример:
только для двух аннотаторов,
на двух занятиях. [ 6 ]
< 0 Плохое соглашение
0.01 – 0.20 Небольшое согласие
0.21 – 0.40 Справедливое соглашение
0.41 – 0.60 Умеренное согласие
0.61 – 0.80 Существенное соглашение
0.81 – 1.00 Почти идеальное согласие

Тесты значимости

[ редактировать ]

Статистические пакеты могут рассчитывать стандартную оценку (Z-показатель) для каппы Коэна или каппы Фляйсса, которую можно преобразовать в P-значение . Однако даже когда значение P достигает порога статистической значимости (обычно менее 0,05), это указывает лишь на то, что согласие между оценщиками значительно лучше, чем можно было бы ожидать случайно. Значение p само по себе не говорит вам, достаточно ли хорошее согласие, чтобы иметь высокую прогностическую ценность.

См. также

[ редактировать ]
  1. ^ Статистика Каппа для анализа соглашения об атрибутах, MiniTab Inc , получена 22 января 2019 г.
  2. ^ Скотт, В. (1955), «Надежность контент-анализа: случай кодирования номинальной шкалы», Public Opinion Quarterly , 19 (3): 321–325, doi : 10.1086/266577 , JSTOR   2746450 .
  3. ^ Перейти обратно: а б Фляйсс, Дж. Л. (1971), «Измерение согласия по номинальной шкале среди многих оценщиков», Psychoological Bulletin , 76 (5): 378–382, doi : 10.1037/h0031619 .
  4. ^ Пауэрс, Дэвид М.В. (2012), Проблема с каппой , том. Конференция Европейского отделения Ассоциации компьютерной лингвистики (EACL2012), Совместный семинар ROBUS-UNSUP., Ассоциация компьютерной лингвистики .
  5. ^ Халлгрен, Кевин А. (2012), «Вычисление межэкспертной надежности данных наблюдений: обзор и руководство», Учебные пособия по количественным методам в психологии , 8 (1): 3–34, doi : 10.20982/tqmp.08.1.p023 , ПМИД   22833776 .
  6. ^ Перейти обратно: а б Лэндис, младший; Кох, Г.Г. (1977), «Измерение согласия наблюдателя для категориальных данных» , Biometrics , 33 (1): 159–174, doi : 10.2307/2529310 , JSTOR   2529310 , PMID   843571 .
  7. ^ Гвет, К.Л. (2014), «Глава 6. (Гейтерсбург: Advanced Analytics, LLC)», Справочник по межоценочной надежности (PDF) (4-е изд.), Advanced Analytics, LLC, ISBN  978-0970806284 .
  8. ^ Сим, Дж.; Райт, CC (2005), «Статистика Каппа в исследованиях надежности: использование, интерпретация и требования к размеру выборки», Physical Therapy , 85 (3): 257–268, doi : 10.1093/ptj/85.3.257 .

Дальнейшее чтение

[ редактировать ]
[ редактировать ]

Arc.Ask3.Ru: конец переведенного документа.
Arc.Ask3.Ru
Номер скриншота №: 4a635980a06c6e0332c2c0f4c8ede87e__1713188820
URL1:https://arc.ask3.ru/arc/aa/4a/7e/4a635980a06c6e0332c2c0f4c8ede87e.html
Заголовок, (Title) документа по адресу, URL1:
Fleiss' kappa - Wikipedia
Данный printscreen веб страницы (снимок веб страницы, скриншот веб страницы), визуально-программная копия документа расположенного по адресу URL1 и сохраненная в файл, имеет: квалифицированную, усовершенствованную (подтверждены: метки времени, валидность сертификата), открепленную ЭЦП (приложена к данному файлу), что может быть использовано для подтверждения содержания и факта существования документа в этот момент времени. Права на данный скриншот принадлежат администрации Ask3.ru, использование в качестве доказательства только с письменного разрешения правообладателя скриншота. Администрация Ask3.ru не несет ответственности за информацию размещенную на данном скриншоте. Права на прочие зарегистрированные элементы любого права, изображенные на снимках принадлежат их владельцам. Качество перевода предоставляется как есть. Любые претензии, иски не могут быть предъявлены. Если вы не согласны с любым пунктом перечисленным выше, вы не можете использовать данный сайт и информация размещенную на нем (сайте/странице), немедленно покиньте данный сайт. В случае нарушения любого пункта перечисленного выше, штраф 55! (Пятьдесят пять факториал, Денежную единицу (имеющую самостоятельную стоимость) можете выбрать самостоятельно, выплаичвается товарами в течение 7 дней с момента нарушения.)