Альфа Криппендорфа - Википедия - Krippendorffs alpha

Коэффициент альфа Криппендорфа,[1] назван в честь академика Клаус Криппендорф, является статистической мерой согласия, достигнутого при кодировании набора единиц анализа в терминах значений переменной. С 1970-х годов альфа используется в Анализ содержания где текстовые единицы классифицируются обученными читателями, в консультациях и Исследовательский опрос где эксперты кодируют данные открытого интервью в поддающиеся анализу термины, в психологическом тестировании, когда необходимо сравнивать альтернативные тесты тех же феноменов, или в наблюдательные исследования где неструктурированные события записываются для последующего анализа.

Альфа Криппендорфа обобщает несколько известных статистических данных, часто называемых мерами межкодерного соглашения, межэкспертная надежность надежность кодирования заданных наборов единиц (в отличие от унификации), но она также отличается от статистических данных, которые называются коэффициентами надежности, но не подходят для деталей кодирования данных, созданных для последующего анализа.

Альфа Криппендорфа применима к любому количеству кодировщиков, каждый из которых присваивает одно значение одной единице анализа, неполным (отсутствующим) данным, любому количеству значений, доступных для кодирования переменной, для двоичных, номинальных, порядковых, интервальных, отношений, полярных и круговые метрики (уровни измерения ), и он приспосабливается к небольшим размерам выборки данных о надежности. Преимущество единого коэффициента с этими вариациями состоит в том, что вычисленные надежности сопоставимы для любого количества кодеров, значений, различных показателей и неравных размеров выборки.

Доступно программное обеспечение для расчета альфы Криппендорфа.[2][3][4][5][6][7][8][9]

Данные о надежности

Данные о надежности генерируются в ситуации, когда м ≥ 2 совместно проинструктированных (например, кодовая книга ), но независимо работающие кодеры присваивают любое из набора значений 1, ...,V к общему набору N единицы анализа. В своей канонической форме данные о надежности сведены в м-к-N матрица, содержащая N значения vij этот кодер cя назначил единицу тыj. Определять мj как количество значений, присвоенных единице j во всех кодерах c. Когда данные неполные, мj может быть меньше чем м. Данные о надежности требуют, чтобы значения были сопоставляемыми, т. Е. мj ≥ 2. Общее количество сопоставляемых значений составляет пмН.

Чтобы прояснить ситуацию, вот как выглядит каноническая форма в аннотации:

ты1ты2ты3...тыN
c1v11v12v13...v1N
c2v21v22v23...v2N
c3v31v32v33...v3N
..................
cмvм1vм2vм3...vмН

Общая форма альфа

Обозначим через набор всех возможных ответов, которые может дать наблюдатель. Ответы всех наблюдателей за примером называется единицей (она образует мультимножество). Обозначим мультимножество с этими единицами как items, .

Альфа определяется:

куда наблюдается разногласие и разногласия, ожидаемые случайно.

куда - метрическая функция (см. ниже), это общее количество элементов, которые можно объединить, количество элементов в единице, количество пары в единице , и - функция перестановки. Видно, что это (взвешенное) среднее наблюдаемое расстояние от диагонали.

куда это количество способов, которыми пара может быть изготовлен. Это можно увидеть как среднее расстояние от диагонали всех возможных пар ответов, которые могут быть получены из мультимножества всех наблюдений.

Вышеупомянутое эквивалентно обычной форме однажды он был упрощен алгебраически.[10]

Одна из интерпретаций Криппендорфа альфа является:

указывает на безупречную надежность
указывает на отсутствие надежности. Единицы измерения и присвоенные им значения статистически не связаны.
когда разногласия носят систематический характер и превышают то, что можно ожидать случайно.

В этой общей форме разногласия Dо и Dе могут быть концептуально прозрачными, но вычислительно неэффективными. Их можно упростить алгебраически, особенно когда они выражены в терминах визуально более наглядного представления матрицы совпадений данных надежности.

Матрицы совпадений

Матрица совпадений представляет собой кросс-таблицу п сопоставимые значения из канонической формы данных надежности в v-к-v квадратная матрица, где v количество значений, доступных в переменной. В отличие от матриц непредвиденных обстоятельств, знакомых по статистике ассоциаций и корреляций, которые табулируют пары ценностей (Кросстабуляция ) матрица совпадений табулирует все сопоставляемые значения. Матрица совпадений не содержит ссылок на кодеры и симметрична относительно своей диагонали, которая содержит все точные совпадения, viu = vя для двух кодеров я и я' , во всех подразделениях ты. Матрица наблюдаемых совпадений содержит частоты:

исключение непарных значений, где я(∘) = 1, если верно, и 0 в противном случае.

Поскольку матрица совпадений сводит в таблицу все сопоставляемые значения, а ее содержимое составляет общую сумму п, когда задействовано четыре или более кодировщика, оск могут быть дроби.

Матрица ожидаемых совпадений содержит частоты:

которые в сумме равны пc, пk, и п так же как и оск. С точки зрения этих совпадений, Криппендорф альфа становится:

Функции разницы

Функции разницы [11] между ценностями v и v ' отражают метрические свойства (уровни измерения ) их переменной.

В целом:

Особенно:

За номинальный данные , куда v и v ' служат именами.
За порядковый данные , куда v и v′ - это чины.
За интервал данные , куда v и v′ - значения шкалы интервалов.
За соотношение данные , куда v и v′ - абсолютные величины.
За полярный данные , куда vмин и vМаксимум определить конечные точки полярной шкалы.
За круговой данные , где синусоидальная функция выражена в градусах и U длина окружности или диапазон значений в круге или петле до их повторения. Для круговых метрик с равным интервалом наименьшее и наибольшее целые значения этой метрики смежны друг с другом и U = vсамый большой – vсамый маленький + 1.

Значимость

Поскольку математические утверждения статистического распределения альфа всегда являются только приближениями, предпочтительно получать альфа распределение по самонастройка.[12][13] Альфа распределение порождает два индекса:

  • В доверительные интервалы вычисленного альфа на разных уровнях статистической значимости
  • Вероятность того, что альфа не может достичь выбранного минимума, необходимого для того, чтобы данные считались достаточно надежными (односторонний тест). Этот индекс подтверждает, что нулевая гипотеза (случайного согласия) так далеко удалена из диапазона релевантных альфа коэффициенты того, что его отклонение мало что значило бы относительно надежности данных. Чтобы данные считались надежными, они не должны значительно отклоняться от идеального согласия.

Минимально приемлемый альфа Коэффициент следует выбирать в зависимости от важности выводов, которые следует сделать на основе неточных данных. Когда цена ошибочных выводов высока, минимум альфа также должен быть установлен высоко. При отсутствии знаний о рисках сделать ложные выводы из недостоверных данных социологи обычно полагаются на данные с надежностью. α ≥ 0,800, рассмотрим данные с 0,800>α ≥ 0,667 только для того, чтобы сделать предварительные выводы, и отбросить данные, согласие которых измеряет α <0,667.[14]

Вычислительный пример

Пусть каноническая форма данных о надежности представляет собой единичную матрицу размером 3 кодера на 15 с 45 ячейками:

Единицы u:123456789101112131415
Кодер А*****34121133*3
Кодер B1*213343*******
Кодер C**21344*21133*4

Предположим, «*» обозначает категорию по умолчанию, такую ​​как «не могу кодировать», «нет ответа» или «нет наблюдения». Тогда * не предоставляет информации о надежности данных в четырех значимых значениях. Обратите внимание, что единицы 2 и 14 не содержат информации, а единица 1 содержит только одно значение, которое не может быть сопоставлено внутри этой единицы. Таким образом, эти данные надежности состоят не из мН = 45, но из п = 26 сопоставляемых значений, не в N = 15, но в 12-кратно кодированных единицах.

Матрица совпадений для этих данных будет построена следующим образом:

о11 = {в ты=4}: ты=10}: ты=11}:
о13 = {в ты=8}: о31
о22 = {в ты=3}: ты=9}:
о33 = {в ты=5}: ты=6}: ты=12}: ты=13}:
о34 = {в ты=6}: ты=15}: о43
о44 = {в ты=7}:
Значения v или же v′:1234пv
Значение 1617
Значение 244
Значение 317210
Значение 4235
Частота nv '7410526

В терминах элементов этой матрицы совпадений, Криппендорфа альфа можно рассчитать из:

Для удобства, потому что продукты с и , только элементы в одном из недиагональных треугольников матрицы совпадений перечислены ниже:

Учитывая, что все когда для номинальных данных приведенное выше выражение дает:

С для данных интервала приведенное выше выражение дает:

Здесь, поскольку разногласия возникают в основном между соседними значениями, что визуально проявляется ближе к диагонали матрицы совпадений, условие, при котором принимает во внимание, но не. Когда наблюдаемые частоты оvv в среднем пропорциональны ожидаемым частотам ev ≠ v ', .

Сравнение альфа Коэффициенты по разным метрикам могут дать ключ к пониманию того, как кодеры концептуализируют метрику переменной.

Альфа использует другую статистику

Криппендорфа альфа объединяет несколько известных статистических данных, каждая из которых имеет свои ограничения, но не имеет дополнительных достоинств.

Когда данные номинальные, альфа сводится к форме, напоминающей форму Скотта число Пи:
Наблюдаемая доля согласия Скотта появляется в альфа числитель, точно. Ожидаемая доля согласия Скотта, асимптотически аппроксимируется когда размер выборки п велико, равно когда бесконечно. Отсюда следует, что Скотт число Пи это частный случай альфа в котором два кодировщика генерируют очень большую выборку номинальных данных. Для конечных размеров выборки: . Очевидно, .
  • Fleiss ’ каппа[16] - коэффициент согласования номинальных данных с очень большими размерами выборки, когда набор кодировщиков назначил точно м ярлыки для всех N единиц без исключения (но учтите, что их может быть больше м кодеры, и только некоторые подмножества помечают каждый экземпляр). Флейс утверждал, что расширил каппа[17] трем или более оценщикам или кодировщикам, но в целом Скотт число Пи вместо. Эта путаница отражена в том, что Флейсс выбрал свое название, которое было признано его переименованием. K:[18]
Когда размер выборки ограничен, K может быть замечено в нарушении последовательности в получении доли соблюденных соглашений путем подсчета совпадений в м(м - 1) возможные пары значений внутри ты, правильно без учета ценности в паре с собой, а пропорция получается путем подсчета совпадений во всех (мН)2 = п2 возможные пары значений, эффективно включая ценности в паре с собой. Именно последнее вносит смещение в коэффициент. Однако, как и для число Пи, когда размер выборки становится очень большим, это смещение исчезает и пропорция в номинальныйα выше асимптотически приближает в K. Тем не менее, Флейсс каппа, или скорее K, пересекается с альфа в той особой ситуации, когда фиксированное количество м кодеры кодируют все N единиц (данные отсутствуют) с использованием номинальных категорий и размера выборки п = мН очень большой, теоретически бесконечный.
куда это сумма N различия в ранге одного кодера c и ранг другого кодера k того же объекта ты. В то время как альфа учитывает одинаковые ранги по частоте для всех кодеров, ро усредняет их в каждом отдельном экземпляре кодировщика. При отсутствии галстуков числитель и знаменатель , куда п = 2N, который становится когда размеры выборки становятся большими. Итак, Spearman’s ро это частный случай альфа в котором два кодировщика ранжируют очень большой набор единиц. Опять таки, и .
  • Пирсона внутриклассовая корреляция коэффициент рii - коэффициент согласования для интервальных данных, двух кодировщиков и очень больших размеров выборки. Для его получения первоначальное предложение Пирсона заключалось в том, чтобы дважды ввести наблюдаемые пары значений в таблицу, один раз как c − k и однажды как k − c, которому традиционные Коэффициент корреляции продукт-момент Пирсона затем применяется.[20] При двойном вводе пар значений результирующая таблица становится матрицей совпадений без привязки к двум кодировщикам, содержит п = 2N значений и симметрична относительно диагонали, т.е. совместная линия линейной регрессии переходит в линию под углом 45 °, и ссылки на кодеры исключаются. Следовательно, Пирсон внутриклассовая корреляция коэффициент - это частный случай интервала альфа для двух кодировщиков и больших объемов выборки, и .
  • Наконец, разногласия в интервале альфа, Dты, Dо и Dе правильный образец отклонения.[21] Отсюда следует, что надежность интервала альфа оценки совместимы со всеми аналитическими методами на основе дисперсии, такими как дисперсионный анализ. Более того, за счет включения разностных функций не только для интервальных данных, но также для номинальных, порядковых, относительных, полярных и круговых данных, альфа расширяет понятие дисперсии на метрики к которым редко обращаются классические аналитические методы.

Криппендорфа альфа является более общим, чем любой из этих коэффициентов специального назначения. Он приспосабливается к разным размерам выборки и позволяет сравнивать широкий спектр данных о надежности, которые в основном игнорируются знакомыми показателями.

Коэффициенты несовместимости с альфой и надежность кодирования

Семантически надежность - это способность полагаться на что-то, в данном случае на закодированные данные для последующего анализа. Когда достаточно большое количество кодировщиков полностью согласны с тем, что они прочитали или наблюдали, полагаться на их описания - беспроигрышный вариант. Суждения такого рода зависят от количества кодировщиков, дублирующих процесс, и от того, насколько репрезентативны кодированные единицы для интересующей совокупности. Проблемы интерпретации возникают, когда согласие несовершенно, особенно когда отсутствует надежность.

  • Коэффициенты корреляции и ассоциации. Коэффициент корреляции продукт-момент Пирсона рij, например, измеряет отклонения от любой линии линейной регрессии между координатами я и j. Если только эта линия регрессии не проходит точно под углом 45 ° или по центру, рij не измеряет согласие. Точно так же, хотя идеальное согласие между кодировщиками также означает идеальную ассоциацию, статистика ассоциации зарегистрируйте любую вышеуказанную случайную модель отношений между переменными. Они не отличают соглашение от других ассоциаций и, следовательно, не подходят в качестве меры надежности.
  • Коэффициенты, измеряющие степень статистической зависимости кодировщиков друг от друга. Когда речь идет о надежности закодированных данных, индивидуальность кодировщиков не может иметь места. Кодеры следует рассматривать как взаимозаменяемые. Альфа, Скотт число Пи, и оригинал Пирсона внутриклассовая корреляция достичь этого, будучи определяемым как функция совпадений, а не только случайностей. В отличие от более известных матриц непредвиденных обстоятельств, в которых N пар значений и поддерживать ссылку на два кодировщика, матрицы совпадений табулируют п платный значения используются в кодировании, независимо от того, кто их предоставил, фактически рассматривая кодеры как взаимозаменяемые. Коэна каппа,[22] Напротив, он определяет ожидаемое согласие с точки зрения непредвиденных обстоятельств, как соглашение, которого можно было бы ожидать, если бы кодировщики были статистически независимыми друг от друга.[23] Концепция случая Коэна не включает разногласия между индивидуальными пристрастиями кодировщиков к определенным категориям, наказывает кодировщиков, которые согласны с их использованием категорий, и награждает тех, кто не согласен с более высокими каппа-значения. Это причина других отмеченных странностей каппа.[24] Статистическая независимость кодировщиков лишь частично связана со статистической независимостью кодируемых единиц и присвоенных им значений. Коэна каппаигнорируя важные разногласия, может стать обманчиво большим, когда необходимо оценить надежность кодируемых данных.
  • Коэффициенты, измеряющие согласованность суждений кодировщика. В психометрической литературе[25] Надежность, как правило, определяется как согласованность, с которой выполняются несколько тестов, когда они применяются к общему набору индивидуальных характеристик. Альфа Кронбаха,[26] например, предназначен для оценки степени, в которой несколько тестов дают коррелированные результаты. Идеальным вариантом, конечно же, является полное совпадение, но альфа Кронбаха высока и тогда, когда результаты тестов систематически меняются. Последовательность суждений кодировщиков не дает необходимых гарантий надежности данных. Любое отклонение от идентичных суждений - систематическое или случайное - должно рассматриваться как несогласие и снижать измеряемую надежность. Альфа Кронбаха не предназначена для того, чтобы реагировать на абсолютные различия.
  • Коэффициенты с базовыми линиями (условиями, при которых они измеряют 0), которые не могут быть интерпретированы с точки зрения надежности, т.е. не имеют специального значения, чтобы указать, когда единицы и присвоенные им значения статистически не связаны. Простое процентное согласие варьируется от 0 = крайнее несогласие до 100 = полное согласие с вероятностью, не имеющей определенного значения. Как уже отмечалось, Коэна каппа попадает в эту категорию, определяя отсутствие надежности как статистическую независимость между двумя отдельными кодировщиками. Базовая линия Беннета, Альперта и Гольдштейна S[27] определяется в терминах количества значений, доступных для кодирования, что имеет мало общего с тем, как значения фактически используются. Лямбда Гудмана и Крускалар[28] определяется как изменяющийся от –1 до +1, оставляя 0 без конкретной интерпретации надежности. Воспроизводимость Лина или коэффициент соответствия рc[29] берет Пирсона корреляция момента продукта рij как меру точности и добавляет к ней меру Cб точности, якобы исправить рij's вышеупомянутая несоответствие. Он варьируется от –1 до +1, и интерпретация надежности 0 неопределенна. Есть больше так называемых мер надежности, интерпретация надежности которых становится сомнительной, как только они отклоняются от идеального согласия.

Обозначение статистики как статистики согласия, воспроизводимости или надежности не делает ее достоверным показателем того, можно ли полагаться на закодированные данные в последующих решениях. Его математическая структура должна соответствовать процессу кодирования единиц в систему анализируемых терминов.

Примечания

  1. ^ Krippendorff, K. (2013) pp. 221–250 описывает математику альфа и его использование в контент-анализе с 1969 года.
  2. ^ Hayes, A. F. и Krippendorff, K. (2007) описывают и предоставлять макросы SPSS и SAS для вычислений альфа, ее доверительные границы и вероятность не достичь выбранного минимума.
  3. ^ Справочное руководство пакета irr, содержащего функцию kripp.alpha () для независимого от платформы пакета статистики р
  4. ^ Страница альфа-ресурсов.
  5. ^ Код Matlab для вычисления альфы Криппендорфа.
  6. ^ Код Python для вычисления альфы Криппендорфа.
  7. ^ Код Python для быстрого альфа-вычисления Криппендорфа.
  8. ^ Доступно несколько написанных пользователями дополнений к коммерческой программе Stata.
  9. ^ Реализация Python с открытым исходным кодом, поддерживающая фреймы данных
  10. ^ Честь, Дэвид. "Понимание альфы Криппендорфа" (PDF).
  11. ^ Вычисление альфа-надежности Криппендорфа » http://repository.upenn.edu/asc_papers/43/
  12. ^ Криппендорф, К. (2004), стр. 237–238.
  13. ^ Хейс, А. Ф. и Криппендорф, К. (2007), отвечая на призыв к стандартной мере надежности для кодирования данных [1]
  14. ^ Криппендорф, К. (2004), стр. 241–243.
  15. ^ Скотт, В. А. (1955)
  16. ^ Флейсс, Дж. Л. (1971)
  17. ^ Коэн, Дж. (1960)
  18. ^ Сигел С. и Кастеллан Н. Дж. (1988), стр. 284–291.
  19. ^ Спирмен, К. Э. (1904)
  20. ^ Пирсон, К. (1901), Тилдесли, М. Л. (1921)
  21. ^ Криппендорф, К. (1970)
  22. ^ Коэн, Дж. (1960)
  23. ^ Криппендорф, К. (1978) поднял этот вопрос с Джозефом Флейссом.
  24. ^ Цвик, Р. (1988), Бреннан, Р. Л. и Предигер, Д. Дж. (1981), Криппендорф (1978, 2004).
  25. ^ Наннэлли, Дж. К. и Бернштейн, И. Х. (1994)
  26. ^ Кронбах, Л. Дж. (1951)
  27. ^ Беннет, Э. М., Альперт, Р., Гольдштейн, А. К. (1954)
  28. ^ Гудман, Л. А., Крускал, В. Х. (1954), стр. 758
  29. ^ Линь Л. И. (1989)

1. К. Криппендорф, 2013, Контент-анализ: Введение в его методологию, 3-е изд. Таузенд-Оукс, Калифорния, США: Sage, PP. 221–250

Рекомендации

  • Беннетт, Эдвард М., Альперт, Р. и Голдштейн, А.С. (1954). Связь с помощью вопросов с ограниченным ответом. Общественное мнение Квартал, 18, 303–308.
  • Бреннан, Роберт Л. и Предигер, Дейл Дж. (1981). Коэффициент каппа: некоторые виды использования, злоупотребления и альтернативы. Образовательные и психологические измерения, 41, 687–699.
  • Коэн, Джейкоб (1960). Коэффициент согласования номинальных шкал. Образовательные и психологические измерения, 20 (1), 37–46.
  • Кронбах, Ли, Дж. (1951). Коэффициент альфа и внутренняя структура тестов. Психометрика, 16 (3), 297–334.
  • Флейсс, Джозеф Л. (1971). Измерение номинальной шкалы согласованности между многими оценщиками. Психологический вестник, 76, 378–382.
  • Гудман, Лео А. И Крускал, Уильям Х. (1954). Меры ассоциации для перекрестных классификаций. Журнал Американской статистической ассоциации, 49, 732–764.
  • Хейс, Эндрю Ф. и Криппендорф, Клаус (2007). Отвечая на призыв к стандартной мере надежности для кодирования данных. Коммуникационные методы и меры, 1, 77–89.
  • Криппендорф, Клаус (2013). Контент-анализ: введение в его методологию, 3-е издание. Таузенд-Оукс, Калифорния: Сейдж.
  • Криппендорф, Клаус (1978). Надежность двоичных атрибутных данных. Биометрия, 34 (1), 142–144.
  • Криппендорф, Клаус (1970). Оценка надежности, систематической ошибки и случайной ошибки интервальных данных. Образовательные и психологические измерения, 30 (1), 61–70.
  • Линь, Лоуренс I. (1989). Коэффициент корреляции согласованности для оценки воспроизводимости. Биометрия, 45, 255–268.
  • Наннелли, Джам К. и Бернштейн, Ира Х. (1994). Психометрическая теория, 3-е изд.. Нью-Йорк: Макгроу-Хилл.
  • Пирсон, Карл и др. (1901). Математический вклад в теорию эволюции. IX: О принципе гомотипоза и его связи с наследственностью, изменчивостью индивидуума и расы. Часть I: Гомотипоз в растительном царстве. Философские труды Королевского общества (Лондон), серия A, 197, 285–379.
  • Скотт, Уильям А. (1955). Надежность контент-анализа: пример кодирования номинальной шкалы. Общественное мнение Квартал, 19, 321–325.
  • Сигел, Сидней и Кастелла, Н. Джон (1988). Непараметрическая статистика для поведенческих наук, 2-е изд.. Бостон: Макгроу-Хилл.
  • Тилдесли, М. Л. (1921). Первое исследование черепа Бурмеса. Биометрика, 13, 176–267.
  • Спирмен, Чарльз Э. (1904). Доказательство и измерение связи между двумя вещами. Американский журнал психологии, 15, 72–101.
  • Цвик, Ребекка (1988). Еще один взгляд на межэкспертное соглашение. Психологический вестник, 103 (3), 347–387.

внешняя ссылка