Компьютерный классификационный тест - Википедия - Computerized classification test
А компьютеризированный классификационный тест (CCT) относится, как следует из названия, к тест которым управляет компьютер с целью классификация испытуемые. Наиболее распространенный CCT - это зачетный тест, в котором экзаменуемые классифицируются как «сдал» или «не сдал», но этот термин также включает тесты, которые классифицируют экзаменуемых более чем на две категории. Хотя этот термин обычно может рассматриваться как относящийся ко всем компьютерным тестам для классификации, он обычно используется для обозначения тестов, которые проводятся в интерактивном режиме или с переменной длиной, аналогично компьютеризированное адаптивное тестирование (КОТ). Подобно CAT, CCT переменной длины могут достичь цели теста (точная классификация) с помощью части количества элементов, используемых в обычном тесте фиксированной формы.
CCT требует нескольких компонентов:
- An банк предметов откалиброван с помощью психометрической модели, выбранной разработчиком тестов
- Отправная точка
- Выбор предмета алгоритм
- Критерий прекращения и порядок выставления баллов
Отправная точка не является предметом споров; исследование CCT в первую очередь изучает применение различных методов для трех других компонентов. Примечание: Критерий завершения и процедура подсчета баллов в CAT раздельны, но одинаковы в CCT, потому что тест завершается при выполнении классификации. Следовательно, для разработки CAT необходимо указать пять компонентов.
Введение в CCT можно найти в Thompson (2007).[1] и книга Паршалла, Спрея, Калона и Дэйви (2006).[2] Библиография опубликованных исследований CCT приведена ниже.
Как это устроено
CCT очень похож на CAT. Задания сдаются экзаменующемуся по одному. После того, как испытуемый ответит на вопрос, компьютер оценивает его и определяет, может ли экзаменуемый еще быть классифицирован. Если да, тест прекращается и экзаменуемый классифицируется. В противном случае вводится другой элемент. Этот процесс повторяется до тех пор, пока экзаменующийся не будет классифицирован или не будет удовлетворен другой конечный пункт (все элементы в банке будут обработаны или не будет достигнута максимальная длина теста).
Психометрическая модель
Для психометрической модели CCT доступны два подхода: классическая теория тестирования (CTT) и теория ответа элемента (IRT). Классическая теория тестирования предполагает наличие модели состояния, поскольку она применяется путем определения параметров заданий для выборки испытуемых, отнесенных к каждой категории. Например, несколько сотен «мастеров» и несколько сотен «не-мастеров» могут быть отобраны для определения сложности и различения каждого, но для этого требуется, чтобы вы могли легко идентифицировать отдельный набор людей, входящих в каждую группу. IRT, с другой стороны, предполагает модель черт; знания или способности, измеряемые тестом, являются континуумом. Классификационные группы должны быть более или менее произвольно определены вдоль континуума, например, с использованием шкалы сокращения для разграничения мастеров и не мастеров, но спецификация параметров элемента предполагает модель черт.
У каждого есть свои преимущества и недостатки. CTT предлагает большую концептуальную простоту. Что еще более важно, CTT требует меньшего количества испытуемых в выборке для калибровки параметров предмета, которые в конечном итоге будут использоваться при разработке CCT, что делает его полезным для небольших программ тестирования. См. Фрик (1992)[3] для описания CCT на основе CTT. Однако большинство CCT используют IRT. IRT предлагает большую специфичность, но наиболее важной причиной может быть то, что проектирование CCT (и CAT) является дорогостоящим и, следовательно, с большей вероятностью выполняется большой программой тестирования с обширными ресурсами. Такая программа, скорее всего, будет использовать IRT.
Отправная точка
CCT должен иметь указанную начальную точку для включения определенных алгоритмов. Если последовательный тест отношения вероятностей используется в качестве критерия завершения, он неявно предполагает начальный коэффициент 1,0 (равная вероятность того, что экзаменующийся является мастером или не мастером). Если критерием прекращения является доверительный интервал При подходе должна быть указана указанная отправная точка на тэте. Обычно это 0,0, центр распределение, но он также может быть получен случайным образом из определенного распределения, если известны параметры распределения испытуемых. Кроме того, может быть использована предыдущая информация об отдельном экзаменуемом, например, его результат при последнем прохождении теста (при повторной сдаче).
Выбор предмета
В CCT элементы выбираются для администрирования на протяжении всего теста, в отличие от традиционного метода предоставления фиксированного набора элементов всем испытуемым. Хотя обычно это делается по отдельным элементам, это также можно сделать в группах элементов, известных как тестлеты (Leucht & Nungester, 1996;[4] Вос и Глас, 2000[5]).
Методы выбора позиций делятся на две категории: на основе оценок и оценочных показателей. Методы, основанные на сокращении (также известные как последовательный выбор), увеличивают Информация баллов, если их несколько, независимо от способностей экзаменуемого. Методы, основанные на оценках (также известные как адаптивный выбор), максимизируют информацию при текущей оценке способностей испытуемого, независимо от местоположения оценки. Оба работают эффективно, но эффективность частично зависит от используемого критерия завершения. Поскольку последовательный тест отношения вероятностей оценивает только вероятности, близкие к результату оценки, выбор элементов на основе оценки более уместен. Поскольку доверительный интервал критерий завершения основан на оценке способностей испытуемого, выбор заданий на основе оценки более уместен. Это связано с тем, что тест будет выполнять классификацию, когда доверительный интервал достаточно мал, чтобы быть полностью выше или ниже оценки сокращения (см. Ниже). Доверительный интервал будет меньше, если стандартная ошибка измерения меньше, и стандартная ошибка измерения будет меньше, когда на тета-уровне экзаменуемого больше информации.
Критерий прекращения
Для ОДТ обычно используются три критерия прекращения. Байесовская теория принятия решений Методы предлагают большую гибкость, представляя бесконечный выбор структур потерь / полезности и соображений оценки, но также вводят больший произвол. А доверительный интервал Подход вычисляет доверительный интервал вокруг текущей тета-оценки экзаменуемого в каждой точке теста и классифицирует экзаменуемого, когда интервал полностью попадает в область тэты, которая определяет классификацию. Первоначально это было известно как адаптивное тестирование мастерства (Kingsbury & Weiss, 1983), но оно не обязательно требует адаптивного выбора заданий и не ограничивается ситуацией тестирования мастерства с двумя классификациями. В последовательный тест отношения вероятностей (Reckase, 1983) определяет проблему классификации как проверка гипотез что тэта экзаменуемого равна определенной точке над оценкой или определенной точке ниже оценки.
Рекомендации
- ^ Томпсон, Н. А. (2007). Практическое руководство по тестированию компьютеризированной классификации переменной длины. Практические оценочные исследования и оценка, 12 (1). [1]
- ^ Паршалл, К.Г., Спрей, Дж. А., Калон, Дж. К., и Дэйви, Т. (2006). Практические аспекты компьютерного тестирования. Нью-Йорк: Спрингер.
- ^ Фрик, Т. (1992). Компьютеризированные адаптивные зачетные тесты как экспертные системы. Журнал образовательных компьютерных исследований, 8 (2), 187-213.
- ^ Люхт Р. М. и Нунгестер Р. Дж. (1998). Некоторые практические примеры компьютерно-адаптивного последовательного тестирования. Журнал педагогических измерений, 35, 229-249.
- ^ Вос, Х.Дж. и Глас, К.А.У. (2000). Адаптивное зачетное тестирование на основе тестлетов. В van der Linden, W.J., and Glas, C.A.W. (Ред.) Компьютеризированное адаптивное тестирование: теория и практика.
Библиография исследований CCT
- Армитаж, П. (1950). Последовательный анализ с более чем двумя альтернативными гипотезами и его связь с анализом дискриминантной функции. Журнал Королевского статистического общества, 12, 137-144.
- Браун, Х., Бежар, И.И., Уильямсон, Д.М. (2006). Методы автоматизированной оценки на основе правил: приложение в контексте лицензирования. В Williamson, D.M., Mislevy, R.J., and Bejar, I.I. (Ред.) Автоматическая оценка сложных задач компьютерного тестирования. Махва, Нью-Джерси: Эрлбаум.
- Додд, Б.Г., Де Айяла, Р. Дж., И Кох, В. Р. (1995). Компьютеризированное адаптивное тестирование с политомическими заданиями. Прикладное психологическое измерение, 19, 5-22.
- Эгген, Т. Дж. Х. М. (1999). Выбор элементов в адаптивном тестировании с использованием последовательного теста отношения вероятностей. Прикладное психологическое измерение, 23, 249-261.
- Эгген, Т. Дж. Х. М., и Стретманс, Г. Дж. Дж. М. (2000). Компьютеризированное адаптивное тестирование для классификации испытуемых по трем категориям. Образовательные и психологические измерения, 60, 713-734.
- Эпштейн, К. И., и Кнерр, К. С. (1977). Применение процедур последовательного тестирования к тестированию производительности. Документ, представленный на конференции по компьютеризированному адаптивному тестированию 1977 г., Миннеаполис, Миннесота.
- Фергюсон, Р. Л. (1969). Разработка, внедрение и оценка компьютерного разветвленного теста по программе индивидуально предписанного обучения. Неопубликованная докторская диссертация, Питтсбургский университет.
- Фрик, Т. В. (1989). Байесовская адаптация во время компьютерных тестов и компьютерных упражнений. Журнал образовательных компьютерных исследований, 5, 89-114.
- Фрик, Т. В. (1990). Сравнение трех моделей решений для адаптации длины компьютерных зачетных тестов. Журнал образовательных компьютерных исследований, 6, 479-513.
- Фрик, Т. В. (1992). Компьютеризированные адаптивные зачетные тесты как экспертные системы. Журнал образовательных компьютерных исследований, 8, 187-213.
- Хуанг, К.-Й., Калон, Дж. К., Лин, К.-Дж., и Спрей, Дж. (2000). Оценка параметров предмета из классических индексов для разработки пула предметов с помощью компьютеризированного классификационного теста. (Отчет об исследовании 2000-4). Айова-Сити, штат Айова: ACT, Inc.
- Джейкобс-Кассуто, M.S. (2005). Сравнение адаптивного зачетного тестирования с использованием тестов
С 3-параметрической логистической моделью. Неопубликованная докторская диссертация, Университет Миннесоты, Миннеаполис, Миннесота.
- Цзяо, Х., и Лау, А.С. (2003). Эффекты несоответствия модели в компьютерной классификации. Документ, представленный на ежегодном собрании Национального совета по измерениям в образовании, Чикаго, штат Иллинойс, апрель 2003 г.
- Цзяо, Х., Ван, С., и Лау, К. А. (2004). Исследование двух комбинированных процедур SPRT для трех категорий классификационных решений в компьютеризированном классификационном тесте. Документ, представленный на ежегодном собрании Американской ассоциации исследований в области образования, Сан-Антонио, апрель 2004 г.
- Калон, Дж. К., и Спрей, Дж. А. (1999). Влияние неправильной спецификации модели на решения о классификации, принятые с помощью компьютеризированного теста. Журнал педагогических измерений, 36, 47-59.
- Кингсбери, Г.Г., и Вайс, Д.Дж. (1979). Стратегия адаптивного тестирования для принятия решений. Отчет об исследовании 79-05. Миннеаполис: Университет Миннесоты, лаборатория психометрических методов.
- Кингсбери, Г.Г., и Вайс, Д.Дж. (1983). Сравнение адаптивного зачетного тестирования на основе IRT и процедуры последовательного зачетного тестирования. В Д. Дж. Вайсс (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237–254). Нью-Йорк: Academic Press.
- Лау, К. А. (1996). Устойчивость процедуры овладения одномерным компьютеризированным тестированием с многомерными данными тестирования. Неопубликованная докторская диссертация, Университет Айовы, Айова-Сити, Айова.
- Лау, К. А., и Ван, Т. (1998). Сравнение и комбинирование дихотомических и политомических элементов с процедурой SPRT в компьютеризированной классификации. Документ, представленный на ежегодном собрании Американской ассоциации исследований в области образования, Сан-Диего.
- Лау, К. А., и Ван, Т. (1999). Компьютеризированное тестирование классификации при практических ограничениях с политомной моделью. Документ представлен на ежегодном собрании Американской ассоциации исследований в области образования, Монреаль, Канада.
- Лау, К. А., и Ван, Т. (2000). Новая процедура выбора элементов для смешанных типов элементов в компьютеризированной классификации. Документ представлен на ежегодном собрании Американской ассоциации исследований в области образования, Новый Орлеан, Луизиана.
- Льюис, К., и Шихан, К. (1990). Использование байесовской теории принятия решений для разработки компьютеризированного зачетного теста. Прикладное психологическое измерение, 14, 367-386.
- Lin, C.-J. И Спрей, J.A. (2000). Влияние критериев выбора элементов на классификационное тестирование с помощью теста последовательного отношения вероятностей. (Отчет об исследовании 2000-8). Айова-Сити, штат Айова: ACT, Inc.
- Линн Р. Л., Рок Д. А. и Клири Т. А. (1972). Последовательное тестирование дихотомических решений. Образовательные и психологические измерения, 32, 85-95.
- Люхт, Р. М. (1996). Многомерное компьютеризированное адаптивное тестирование в контексте сертификации или лицензирования. Прикладное психологическое измерение, 20, 389-404.
- Reckase, M. D. (1983). Процедура принятия решения с использованием специализированного тестирования. В Д. Дж. Вайсс (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237–254). Нью-Йорк: Academic Press.
- Руднер, Л. М. (2002). Изучение процедур адаптивного тестирования теории принятия решений. Доклад, представленный на ежегодном собрании Американской ассоциации исследований в области образования, 1–5 апреля 2002 г., Новый Орлеан, штат Луизиана.
- Шихан К. и Льюис К. (1992). Компьютерное тестирование успеваемости с использованием неэквивалентных тестовых листов. Прикладное психологическое измерение, 16, 65-76.
- Спрей, Дж. А. (1993). Классификация по нескольким категориям с использованием последовательного теста отношения вероятностей (Отчет об исследовании 93-7). Айова-Сити, Айова: ACT, Inc.
- Спрей, Дж. А., Абдель-Фаттах, А. А., Хуанг, К., и Лау, К. А. (1997). Одномерные приближения для компьютеризированного теста, когда пул элементов и скрытое пространство многомерны (Отчет об исследовании 97-5). Айова-Сити, Айова: ACT, Inc.
- Спрей, Дж. А. и Реказ, М. Д. (1987). Влияние ошибки оценки параметра элемента на решения, принятые с использованием теста последовательного отношения вероятностей (Отчет об исследовании 87-17). Айова-Сити, штат Айова: ACT, Inc.
- Спрей, Дж. А. и Реказ, М. Д. (1994). Выбор тестовых заданий для принятия решений с помощью компьютеризированного адаптивного теста. Документ, представленный на Ежегодном собрании Национального совета по измерениям в образовании (Новый Орлеан, Лос-Анджелес, 5–7 апреля 1994 г.).
- Спрей, Дж. А. и Реказ, М. Д. (1996). Сравнение SPRT и последовательных байесовских процедур для классификации испытуемых на две категории с использованием компьютеризированного теста. Журнал образовательной и поведенческой статистики, 21, 405-414.
- Томпсон, Н.А. (2006). Компьютеризированное классификационное тестирование переменной длины с теорией ответа элемента. CLEAR Exam Review, 17 (2).
- Вос, Х. Дж. (1998). Оптимальные последовательные правила для компьютерного обучения. Журнал образовательных компьютерных исследований, 19, 133-154.
- Вос, Х. Дж. (1999). Применение байесовской теории принятия решений к последовательному тестированию зачетных знаний. Журнал образовательной и поведенческой статистики, 24, 271-292.
- Вальд, А. (1947). Последовательный анализ. Нью-Йорк: Вили.
- Вайс, Д. Дж., И Кингсбери, Г. Г. (1984). Применение компьютерного адаптивного тестирования к учебным задачам. Журнал педагогических измерений, 21, 361-375.
- Вайсман, А. (2004). Выбор взаимного информационного элемента в классификации CAT по нескольким категориям. Документ, представленный на ежегодном собрании Национального совета по измерениям в образовании, Сан-Диего, Калифорния.
- Вайцман, Р. А. (1982a). Последовательное тестирование на выбор. Прикладное психологическое измерение, 6, 337-351.
- Вайцман, Р. А. (1982b). Использование последовательного тестирования для предварительного отбора кандидатов на военную службу. В D. J. Weiss (Ed.), Proceedings of the 1982 Computerized Adaptive Testing Conference. Миннеаполис, Миннесота: Университет Миннесоты, факультет психологии, программа психометрических методов, 1982.
внешняя ссылка
- Теория принятия решения об измерениях Лоуренс Руднер
- CAT Central Дэвид Дж. Вайс