Скоттс Пи - Википедия - Scotts Pi
Пи Скотта (названный в честь Уильям А. Скотт ) - статистика для измерения межэкспертная надежность за номинальные данные в коммуникационные исследования. Текстовые объекты аннотируются категориями разными аннотаторами, и для оценки степени согласия между аннотаторами используются различные меры, одним из которых является пи Скотта. Поскольку автоматическое добавление аннотаций к тексту - популярная проблема в обработка естественного языка, и цель состоит в том, чтобы компьютерная программа, которая разрабатывается, согласовывалась с людьми в аннотациях, которые она создает, оценка степени согласия людей друг с другом важна для установления разумного верхнего предела производительности компьютера.
Вступление
Пи Скотта похож на Каппа Коэна в том, что они улучшают простое наблюдаемое согласие, принимая во внимание степень согласия, которую можно было бы ожидать случайно. Однако в каждой статистике ожидаемое совпадение рассчитывается немного по-разному. Пи Скотта предполагает, что аннотаторы имеют одинаковое распределение ответов, что делает Каппа Коэна немного информативнее. Число Пи Скотта расширено до более чем двух аннотаторов Каппа Флейса.
Уравнение для числа Пи Скотта, как в Каппа Коэна, является:
Однако Pr (e) вычисляется с использованием квадрата «совместных пропорций», которые являются квадратом среднего арифметического предельных пропорций (в то время как Коэн использует квадратные средние геометрические их).
Пример работы
Матрица неточностей для двух аннотаторов, трех категорий {Да, Нет, Возможно} и 45 пунктов рейтинга (90 оценок для 2 аннотаторов):
да | Нет | Может быть | Предельная сумма | |
да | 1 | 2 | 3 | 6 |
Нет | 4 | 5 | 6 | 15 |
Может быть | 7 | 8 | 9 | 24 |
Предельная сумма | 12 | 15 | 18 | 45 |
Чтобы вычислить ожидаемое согласие, суммируйте маржинальные значения по аннотаторам и разделите их на общее количество оценок, чтобы получить общие пропорции. Возведите в квадрат и просуммируйте:
Ann1 | Ann2 | Совместная пропорция | JP в квадрате | |
да | 12 | 6 | (12 + 6)/90 = 0.2 | 0.04 |
Нет | 15 | 15 | (15 + 15)/90 = 0.333 | 0.111 |
Может быть | 18 | 24 | (18 + 24)/90 = 0.467 | 0.218 |
Общий | 0.369 |
Чтобы вычислить наблюдаемое согласие, разделите количество элементов, по которым согласились аннотаторы, на общее количество элементов. В этом случае,
Учитывая, что Pr (e) = 0,369, тогда число Пи Скотта равно
Смотрите также
Рекомендации
- Скотт, В. (1955). «Надежность контент-анализа: пример кодирования номинальной шкалы». Public Opinion Quarterly, 19 (3), 321-325.
- Криппендорф, К. (2004b) «Надежность контент-анализа: некоторые распространенные заблуждения и рекомендации». в исследованиях человеческого общения. Vol. 30, стр. 411-433.