Надежность (статистика) - Reliability (statistics)
Надежность в статистика а психометрия - это общая согласованность меры.[1] Считается, что мера имеет высокую надежность, если она дает аналогичные результаты в постоянных условиях. «Это характеристика набора тестов, которая связана с количеством случайных ошибок в процессе измерения, которые могут быть встроены в оценки. Высоконадежные оценки являются точными, воспроизводимыми и непротиворечивыми от одного случая тестирования к другому. То есть, если бы процесс тестирования был повторен с группой испытуемых, по сути, были бы получены те же результаты.Для того, чтобы использовать различные коэффициенты надежности со значениями в диапазоне от 0,00 (большая ошибка) до 1,00 (нет ошибки), указать количество ошибок в оценках ". [2] Например, измерения роста и веса людей часто очень надежны.[3][4]
Типы
Существует несколько общих классов оценок надежности:
- Межэкспертная надежность оценивает степень согласия между двумя или более оценщиками в их оценках. Например, у человека болит живот, и разные врачи ставят один и тот же диагноз.[5]:71
- Тест-ретест надежность оценивает степень соответствия результатов тестов от одного проведения теста к другому. Измерения собираются у одного оценщика, который использует те же методы или инструменты и те же условия тестирования.[4] Это включает в себя внутриэкспертная надежность.
- Межметодическая надежность оценивает степень согласованности результатов тестов при различиях в используемых методах или инструментах. Это позволяет исключить надежность между экспертами. При работе с формы, это можно назвать надежность параллельных форм.[6]
- Внутренняя согласованность надежность, оценивает согласованность результатов по элементам в тесте.[6]
Отличие от действительности
Надежность не предполагает срок действия. То есть надежная мера, которая измеряет что-то последовательно, не обязательно означает то, что вы хотите измерить. Например, хотя существует множество надежных тестов конкретных способностей, не все из них могут быть пригодны для прогнозирования, скажем, производительности труда.
Хотя надежность не предполагает срок действия, надежность накладывает ограничения на общую достоверность теста. Тест, который не является полностью надежным, не может быть абсолютно достоверным ни как средство измерения характеристик человека, ни как средство прогнозирования оценок по критерию. Хотя надежный тест может предоставить полезную действительную информацию, ненадежный тест не может быть действительным.[7]
Например, если набор Весы последовательно измерял вес объекта на 500 грамм сверх истинного веса, тогда весы были бы очень надежными, но не действительными (поскольку возвращенный вес не является истинным весом). Чтобы шкала была действительной, она должна возвращать истинный вес объекта. Этот пример демонстрирует, что абсолютно надежный показатель не обязательно действителен, но что действительный показатель обязательно должен быть надежным.
Общая модель
На практике меры тестирования никогда не бывают полностью согласованными. Для оценки влияния несогласованности на точность измерения были разработаны теории надежности испытаний. Основной отправной точкой почти всех теорий надежности тестов является идея о том, что результаты тестов отражают влияние двух видов факторов:[7]
1. Факторы, способствующие постоянству: стабильные характеристики человека или атрибут, который пытаются измерить
2. Факторы, способствующие несогласованности: особенности человека или ситуации, которые могут повлиять на результаты тестов, но не имеют ничего общего с измеряемым атрибутом.
Эти факторы включают:[7]
- Временные, но общие характеристики личности: здоровье, утомляемость, мотивация, эмоциональное напряжение.
- Временные и специфические характеристики человека: понимание конкретной тестовой задачи, специфические приемы или методы работы с конкретными тестовыми материалами, колебания памяти, внимания или точности.
- Аспекты ситуации тестирования: отсутствие отвлекающих факторов, ясность инструкций, взаимодействие личности, пола или расы экзаменатора.
- Случайные факторы: удача в выборе ответов наугад, моментальные отвлечения.
Цель оценки надежности состоит в том, чтобы определить, насколько вариативность результатов тестирования связана с погрешности измерения и сколько из-за изменчивости истинные оценки.[7]
А истинный счет это воспроизводимая особенность измеряемой концепции. Это часть наблюдаемой оценки, которая будет повторяться в разных случаях измерения в отсутствие ошибки.
Ошибки измерения состоят из обоих случайная ошибка и систематическая ошибка. Он представляет собой расхождения между оценками, полученными на тестах, и соответствующими истинными оценками.
Эта концептуальная разбивка обычно представлена простым уравнением:
- Наблюдаемая оценка теста = истинная оценка + ошибки измерения
Классическая теория тестирования
Цель теории надежности - оценить ошибки в измерениях и предложить способы улучшения тестов, чтобы ошибки были минимизированы.
Центральное предположение теории надежности состоит в том, что ошибки измерения по существу случайны. Это не означает, что ошибки возникают из-за случайных процессов. Для любого человека ошибка измерения не является полностью случайным событием. Однако предполагается, что у большого числа людей причины ошибки измерения настолько разнообразны, что ошибки измерения действуют как случайные величины.[7]
Если ошибки имеют основные характеристики случайных величин, то разумно предположить, что ошибки с одинаковой вероятностью могут быть положительными или отрицательными и что они не коррелируют с истинными оценками или с ошибками в других тестах.
Предполагается, что:[8]
1. Средняя погрешность измерения = 0
2. Истинные оценки и ошибки не связаны
3. Ошибки по разным показателям не коррелируют.
Теория надежности показывает, что дисперсия полученных оценок - это просто сумма дисперсии истинные оценки плюс дисперсия погрешности измерения.[7]
Это уравнение предполагает, что результаты тестов варьируются в результате двух факторов:
1. Различия в истинных оценках
2. Вариабельность из-за ошибок измерения.
Коэффициент надежности обеспечивает индекс относительного влияния истинных и ошибочных оценок на достигнутые результаты теста. В общем виде коэффициент надежности определяется как отношение истинный счет отклонение от общей дисперсии результатов тестов. Или, что то же самое, единица минус отношение вариации оценка ошибки и вариация наблюдаемая оценка:
К сожалению, нет возможности напрямую наблюдать или вычислять истинный счет, поэтому для оценки надежности теста используются самые разные методы.
Некоторые примеры методов оценки надежности включают: тест-ретест надежность, Внутренняя согласованность надежность и надежность при параллельном тестировании. Каждый метод по-своему решает проблему определения источника ошибки в тесте.
Теория отклика предмета
Теоретикам классических испытаний было хорошо известно, что точность измерений неоднородна по шкале измерений. Тесты, как правило, лучше различаются у испытуемых со средним уровнем черт и хуже - у испытуемых с высокими и низкими баллами. Теория отклика предмета расширяет понятие надежности от единственного индекса до функции, называемой информационная функция. Информационная функция IRT является обратной стандартной ошибкой условной наблюдаемой оценки для любого заданного результата теста.
Оценка
Цель оценки надежности состоит в том, чтобы определить, какая часть изменчивости результатов теста связана с ошибками в измерениях, а какая - с изменчивостью истинных оценок.
Были разработаны четыре практических стратегии, которые обеспечивают работающие методы оценки надежности испытаний.[7]
1. Тест-ретест надежность метод: непосредственно оценивает степень соответствия результатов тестов от одного проведения теста к другому.
Это включает в себя:
- Проведение теста для группы лиц
- Повторное проведение того же теста в той же группе через некоторое время
- Сопоставление первого набора оценок со вторым
Корреляция между баллами по первому тесту и баллами по повторному тестированию используется для оценки надежности теста с использованием Коэффициент корреляции продукт-момент Пирсона: смотрите также корреляция между элементами.
2. Метод параллельных форм:
Ключом к этому методу является разработка альтернативных форм тестирования, эквивалентных по содержанию, процессам реагирования и статистическим характеристикам. Например, существуют альтернативные формы для нескольких тестов общего интеллекта, и эти тесты обычно считаются эквивалентными.[7]
С помощью модели параллельного тестирования можно разработать две формы теста, которые эквивалентны в том смысле, что истинная оценка человека по форме A будет идентична его истинной оценке по форме B. количество человек, разница между оценками в форме A и форме B может быть связана только с ошибками измерения.[7]
Это включает в себя:
- Проведение одной формы теста для группы лиц
- Через некоторое время проведение альтернативной формы того же теста той же группе людей
- Сопоставление оценок по форме A с оценками по форме B
Корреляция между оценками по двум альтернативным формам используется для оценки надежности теста.
Этот метод обеспечивает частичное решение многих проблем, присущих тест-ретест надежность метод. Например, поскольку две формы теста различны, эффект переноса меньшая проблема. Эффекты реактивности также частично контролируются; хотя сдача первого теста может изменить ответы на второй тест. Однако разумно предположить, что эффект не будет таким сильным при использовании альтернативных форм теста, как при двух введениях одного и того же теста.[7]
Однако у этой техники есть свои недостатки:
- Может быть очень сложно создать несколько альтернативных форм теста.
- Также может быть сложно, если вообще возможно, гарантировать, что две альтернативные формы теста являются параллельными мерами.
3. Метод разделения половин:
Этот метод рассматривает две половины меры как альтернативные формы. Это простое решение проблемы, связанной с метод параллельных форм Лица: трудности в развитии альтернативных форм.[7]
Это включает в себя:
- Проведение теста для группы лиц
- Разделение теста пополам
- Сопоставление оценок за одну половину теста с оценками за другую половину теста
Корреляция между этими двумя половинками используется для оценки надежности теста. Эта половина оценки надежности затем повышается до полной длины теста с использованием Формула предсказания Спирмена – Брауна.
Есть несколько способов разбить тест для оценки надежности. Например, словарный тест из 40 пунктов можно разделить на два субтеста, первый из которых состоит из пунктов с 1 по 20, а второй - из пунктов с 21 по 40. Однако ответы в первой половине могут систематически отличаться от ответы во второй половине из-за увеличения сложности задания и утомляемости.[7]
При разделении теста две половины должны быть как можно более похожими как по содержанию, так и с точки зрения вероятного состояния респондента. Самый простой метод - использовать разделение на нечетные и четные, при котором элементы с нечетными номерами составляют одну половину теста, а элементы с четными номерами - другую. Такое расположение гарантирует, что каждая половина будет содержать равное количество элементов из начала, середины и конца исходного теста.[7]
4. Внутренняя согласованность: оценивает согласованность результатов по элементам теста. Наиболее распространенной мерой внутренней согласованности является Альфа Кронбаха, который обычно интерпретируется как среднее значение всех возможных коэффициентов разделения половин.[9] Альфа Кронбаха - это обобщение более ранней формы оценки внутренней согласованности, Формула Кудера – Ричардсона 20.[9] Хотя чаще всего используется, есть некоторые заблуждения относительно альфы Кронбаха.[10][11]
Эти меры надежности различаются по своей чувствительности к различным источникам ошибок и поэтому не обязательно должны быть одинаковыми. Также надежность - это свойство баллы меры а не саму меру, и поэтому зависит от образца. Оценки надежности для одной выборки могут отличаться от оценок для второй выборки (сверх того, что можно было бы ожидать из-за вариаций выборки), если вторая выборка взята из другой совокупности, поскольку истинная изменчивость во второй выборке отличается. (Это верно для мер всех типов - мерки могут хорошо измерять дома, но иметь низкую надежность при использовании для измерения длины насекомых.)
Надежность можно повысить за счет ясности выражения (для письменных оценок), удлинения меры,[9] и другие неформальные средства. Однако формальный психометрический анализ, называемый предметным анализом, считается наиболее эффективным способом повышения надежности. Этот анализ состоит из вычисления трудности с предметом и различение предметов индексы, последний индекс включает вычисление корреляций между заданиями и суммой баллов за задания всего теста. Если элементы, которые слишком сложны, слишком легки и / или имеют близкую к нулю или отрицательную дискриминацию, заменены на более качественные, надежность меры повысится.
- (куда это частота отказов)
Смотрите также
- Коэффициент вариации
- Согласованность (статистика)
- Однородность (статистика)
- Тест-ретест надежность
- Внутренняя согласованность
- Уровни измерения
- Тщательность и точность
- Надежность страница значений
- Теория надежности
- Техника надежности
- Воспроизводимость
- Срок действия (статистика)
Эта статья включает в себя список общих Рекомендации, но он остается в основном непроверенным, потому что ему не хватает соответствующих встроенные цитаты.Июль 2010 г.) (Узнайте, как и когда удалить этот шаблон сообщения) ( |
Рекомендации
- ^ Уильям М.К. Трохим, Надежность
- ^ Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorR
- ^ др.], Нил Р. Карлсон ... [и др. (2009). Психология: наука о поведении (4-е канадское изд.). Торонто: Пирсон. ISBN 978-0-205-64524-4.
- ^ а б В Совет по стандартам маркетинговой ответственности (MASB) поддерживает это определение как часть своего постоянного Общий язык: проект маркетинговой деятельности и показателей В архиве 12 февраля 2013 г. Wayback Machine.
- ^ Дюран, В. Марк. (2015). Основы ненормальной психологии. [Место публикации не указано]: Cengage Learning. ISBN 978-1305633681. OCLC 884617637.
- ^ а б c d е ж грамм час я j k л м Давидсхофер, Кевин Р. Мерфи, Чарльз О. (2005). Психологическое тестирование: принципы и применение (6-е изд.). Река Аппер Сэдл, Нью-Джерси: Пирсон / Прентис Холл. ISBN 0-13-189172-3.
- ^ Гулликсен, Гарольд (1987). Теория ментальных тестов. Хиллсдейл, Нью-Джерси: L. Erlbaum Associates. ISBN 978-0-8058-0024-1.
- ^ а б c Кортина, Дж. М. (1993). Что такое коэффициент альфа? Исследование теории и приложений. Журнал прикладной психологии, 78(1), 98–104.
- ^ Риттер, Н. (2010). Понимание широко неправильно понимаемой статистики: альфы Кронбаха. Документ, представленный на конференции Юго-Западной ассоциации исследований в области образования (SERA) 2010, Новый Орлеан, Лос-Анджелес (ED526237).
- ^ Eisinga, R .; Te Grotenhuis, M .; Пельцер, Б. (2012). «Надежность шкалы из двух пунктов: Пирсона, Кронбаха или Спирмена-Брауна?» (PDF). Международный журнал общественного здравоохранения. 58 (4): 637–642. Дои:10.1007 / s00038-012-0416-3. HDL:2066/116735. PMID 23089674.