Адаптивное сравнительное суждение - Adaptive comparative judgement
Адаптивное сравнительное суждение это техника, заимствованная из психофизика который может дать надежные результаты для оценки успеваемости - как таковой он является альтернативой традиционному разметке экзаменационных сценариев. В рамках этого подхода судьям представлены пары работ учащихся, а затем их просят выбрать, что лучше, одно или другое. Затем с помощью итеративного и адаптивного алгоритма можно получить масштабированное распределение работ учащихся без ссылки на критерии.
Вступление
Традиционная оценка экзаменационных экзаменов началась в Кембридже 1792 года, когда с ростом числа студентов возрастала важность правильного ранжирования студентов. Итак, в 1792 году новый экзаменатор Уильям Фариш ввел выставление оценок - процесс, при котором каждый экзаменатор выставляет числовую оценку каждому ответу каждого студента, а общая общая оценка ставит студентов в окончательный порядок ранжирования. Фрэнсис Гальтон (1869) отметил, что в неустановленном году около 1863 г. Старший Рэнглер набрал 7634 из 17000, а второй Wrangler набрал 4123 балла. («Деревянная ложка» набрала всего 237 баллов.)
До 1792 года группа экзаменаторов Кембриджа собиралась в 17:00 в последний день экзамена, проверяла 19 работ, которые сдал каждый студент, и публиковала свои ранжирования в полночь. Маркировка решила проблемы с числами и предотвратила несправедливую личную предвзятость, а ее введение стало шагом к современному объективному тестированию - формату, для которого она лучше всего подходит. Но последовавшая за этим технология тестирования с упором на надежность и автоматизацию выставления оценок оказалась неудобным партнером для некоторых областей образовательных достижений: оценка письменной или устной речи, а для других видов деятельности требуется нечто большее. качественный и осуждающий.
Техника адаптивного сравнительного суждения - альтернатива разметке. Он возвращается к идее сортировки бумаг по качеству, существовавшей до 1792 года, но сохраняет гарантию надежности и честности. Это, безусловно, самый надежный из известных способов оценивать эссе или более сложные выступления.[нужна цитата ]. Это намного проще, чем маркировка, и его предпочитают почти все экзаменаторы, которые пробовали его. Настоящая привлекательность адаптивного сравнительного суждения заключается в том, как оно может перепрофессионализировать деятельность по оценке и как оно может повторно интегрировать оценка с обучением.
История
Закон сравнительного суждения Терстона
«Абсолютного суждения не существует»
— Хромой (2004)[1]
Наука сравнительного суждения началась с Луи Леон Терстон из Чикагский университет. Пионер психофизика, он предложил несколько способов построения шкал для измерения ощущений и других психологический характеристики. Одним из них был закон сравнительного суждения (Терстон, 1927a, 1927b),[2][3] который определил математический способ моделирования вероятности того, что один объект «превзойдет» другой в сравнении, с заданными значениями «качества» каждого. Это все, что нужно для построения полноценной системы измерения.
Вариант его модели (см. Парное сравнение и модель BTL), утверждает, что разница между их значениями качества равна логарифму шансов, что объект-A превзойдет объект-B:
До появления современных компьютеров математика, необходимая для расчета «значений» качества каждого объекта, означала, что метод можно было использовать только с небольшими наборами объектов, а его применение было ограничено. Для Терстона объектами обычно были ощущения, такие как интенсивность, или отношения, такие как серьезность преступлений, или высказывания мнений. Социальные исследователи продолжали использовать этот метод, так же как и исследователи рынка, для которых объекты могли быть разными планировками гостиничных номеров или вариациями предлагаемого нового печенья.
В 1970-х и 1980-х годах сравнительное суждение появилось почти впервые в образовательной оценке в качестве теоретической основы или предшественника новых теорий скрытых черт или ответов на вопросы. (Андрич, 1978). Эти модели теперь являются стандартными, особенно в системах хранения предметов и адаптивного тестирования.
Повторное введение в образование
Первой опубликованной статьей, использующей сравнительное суждение в образовании, была Pollitt & Murray (1994), по сути исследовательская работа, касающаяся характера шкалы владения английским языком, оцениваемой в устной части экзамена CPE Кембриджа. Объектами были кандидаты, представленные 2-минутными фрагментами видеозаписей с их тестовых сессий, а судьями были аспиранты лингвистики, не прошедшие аттестацию. Судьи сравнивали пары отрывков видео, просто сообщая, какой из них они сочли лучшим учеником, а затем прошли клиническое интервью, чтобы выяснить причины своего решения.
Затем Поллитт представил британским присуждающим организациям сравнительное суждение как метод сравнения стандартов уровней A от различных советов. Сравнительное суждение заменило их существующий метод, который требовал прямого суждения о сценарии относительно официального стандарта другой доски. В течение первых двух или трех лет этого Поллитт проводил все анализы для всех плат, используя программу, которую он написал для этой цели. Это сразу же стало единственным экспериментальным методом, используемым для исследования сопоставимости экзаменов в Великобритании; приложения для этой цели с 1996 по 2006 г. полностью описаны в Bramley (2007).[4]
В 2004 году Поллитт представил доклад на конференции Международной ассоциации по оценке образования под названием «Давайте перестанем оценивать экзамены», а другой - на той же конференции в 2009 году под названием «Отмена марксизма». В каждой статье цель заключалась в том, чтобы убедить оценочное сообщество в том, что использование сравнительного суждения дает значительные преимущества вместо выставления оценок для некоторых типов оценивания. В 2010 году он представил доклад в Европейской ассоциации оценки образования «Как правильно и надежно оценивать письменную речь», в котором представлены доказательства чрезвычайно высокой надежности, достигнутой с помощью сравнительного суждения при оценке уровня владения учениками начальной школы английского языка как первого языка. письмо.
Адаптивное сравнительное суждение
Сравнительное суждение становится жизнеспособной альтернативой выставлению оценок, когда оно реализовано в виде адаптивной сетевой системы оценивания. При этом «баллы» (параметр модели для каждого объекта) переоцениваются после каждого «раунда» суждений, в котором в среднем каждый объект оценивался еще раз. В следующем раунде каждый сценарий сравнивается только с другим, текущая оценочная оценка которого аналогична, что увеличивает количество статистической информации, содержащейся в каждом решении. В результате процедура оценки более эффективна, чем случайное спаривание или любая другая заранее заданная система спаривания, подобная тем, которые используются в классических приложениях сравнительного суждения. (Pollitt, 2012).[5]
Как и в случае компьютерно-адаптивного тестирования, эта адаптивность максимизирует эффективность процедуры оценки, увеличивая разделение оценок и уменьшая стандартные ошибки. Наиболее очевидным преимуществом является то, что это обеспечивает значительно более высокую надежность по сравнению с оценкой путем маркировки без потери достоверности.
Неясно, действительно ли адаптивное сравнительное суждение повышает надежность. (Брамли, Вителло, 2016). [6]
Текущие проекты сравнительного суждения
RM Сравнить
RM Compare - это оригинальная система адаптивного сравнительного суждения.[7] Система, первоначально разработанная как CompareAssess компанией Digital Assess, предназначена для масштабного развертывания адаптивных сравнительных суждений и используется по всему миру в широком диапазоне контекстов.
Проекты сравнительного суждения с открытым исходным кодом
Цифровая платформа для оценки компетенций (D-PAC) - это консорциум с Университетом Антверпена, iMinds и Университетом Гента для создания приложения для сравнительного суждения с открытым исходным кодом. D-PAC в сотрудничестве с No More Marking Ltd разработали алгоритмы, которые www.nomoremarking.com под ОБЩЕЙ ОБЩЕСТВЕННОЙ ЛИЦЕНЗИЕЙ GNU версии 3, 29 июня 2007 г.
Сравнительное суждение
Нет больше маркировки создали онлайн-приложение сравнительного суждения, а также хранилище полезной информации.
побег
Первое применение сравнительного суждения к прямой оценке студентов было в проекте под названием побег под руководством профессора Ричарда Кимбелла из Голдсмит-колледжа Лондонского университета (Kimbell & Pollitt, 2008).[8] Работа по развитию проводилась в сотрудничестве с рядом награжденных органов в рамках курса «Дизайн и технологии». Команда Кимбелла разработала сложный и аутентичный проект, в котором учащиеся должны были разработать в качестве прототипа такой объект, как детский дозатор таблеток в двух трехчасовых сеансах под наблюдением.
Интернет-система оценки была разработана Каримом Дерриком и Декланом Линчем из TAG Developments, которая теперь является частью Digital Assess, и основана на оригинальном КАРТЫ (программное обеспечение) система оценки портфолио, теперь известная как Управление. Goldsmiths, TAG Developments и Pollitt провели три испытания, увеличив размер выборки с 20 до 249 студентов и разработав как систему судейства, так и систему оценивания. Есть три пилотных проекта, включающих географию и науку, а также оригинальный проект в области дизайна и технологий.
Письмо в начальной школе
В конце 2009 года TAG Developments и Pollitt опробовали новую версию системы оценивания письма. В общей сложности 1000 сценариев начальной школы были оценены командой из 54 судей в смоделированном национальном контексте оценивания. Достоверность полученных баллов после того, как каждый сценарий был оценен 16 раз, составила 0,96, что значительно выше, чем в любом другом опубликованном исследовании аналогичной письменной оценки. Дальнейшее развитие системы показало, что надежность 0,93 может быть достигнута примерно после 9 оценок каждого скрипта, когда система не дороже, чем разовая маркировка, но все же намного более надежна.[5]
Дальнейшие проекты
В настоящее время реализуются несколько проектов в Англии, Шотландии, Ирландии, Израиле, Сингапуре и Австралии. Они варьируются от начальной школы до университета в зависимости от контекста и включают как формирующее, так и итоговое оценивание, от письма до математики. Базовая веб-система теперь доступна на коммерческой основе от TAG Assessment (http://www.tagassessment.com ) и могут быть изменены в соответствии с конкретными потребностями.
ACJ использовался Сири, Кэнти, Гордоном и Лейном в Университете Лимерика, Ирландия, для оценки работы студентов бакалавриата по программам начального педагогического образования с 2009 года. ACJ также использовался доктором Бартоломью из Университета Пердью для оценки портфолио дизайнеров в середине , старшеклассники и студенты. Варфоломей также использовал ACJ в качестве инструмента для формирующего оценивания и обучения решению открытых проблем.
Рекомендации
- ^ * Ламинг, Д. Р. Дж. (2004) Человеческое суждение: взгляд смотрящего. Лондон, Томсон.
- ^ Терстон, Л. Л. (1927a). Психофизический анализ. Американский журнал психологии, 38, 368-389. Глава 2 в Thurstone, L.L. (1959). Измерение ценностей. Издательство Чикагского университета, Чикаго, Иллинойс.
- ^ Терстон, Л. Л. (1927b). Метод парных сравнений социальных ценностей. Журнал аномальной и социальной психологии, 21, 384-400. Глава 7 в Thurstone, L.L. (1959). Измерение ценностей. University of Chicago Press, Чикаго, Иллинойс
- ^ Брэмли, Т (2007) Парные методы сравнения. В Newton, P, Baird, J, Patrick, H, Goldstein, H, Timms, P и Wood, A (ред.). Методики контроля сопоставимости экзаменационных стандартов. Лондон, QCA.
- ^ а б Поллитт, А. (2012) Метод адаптивного сравнительного суждения. Оценка в образовании: принципы, политика и практика. 19: 3, 1-20. DOI: 10.1080 / 0969594X.2012.665354
- ^ Брамли, Т. и Вителло, С. (2016) Влияние адаптивности на коэффициент надежности в адаптивном сравнительном суждении. Оценка в образовании: принципы, политика и практика. 26: 1, 43-58. DOI: 10.1080 / 0969594X.2017.1418734
- ^ RM Сравнить
- ^ Кимбелл Р., А. и Поллитт А. (2008) Оценка курсовой работы на экзаменах с высокими ставками: аутентичность, креативность, надежность Третья международная конференция по измерениям Раша. Перт: Западная Австралия: январь.
- Поллитт, А (2015) О смещении надежности в ACJ: достоверное моделирование адаптивного сравнительного суждения. Кембриджский экзамен: Кембридж, Великобритания. https://www.researchgate.net/publication/283318012_On_%27Reliability%27_bias_in_ACJ
- APA, AERA и NCME (1999) Стандарты педагогического и психологического тестирования.
- Гальтон, Ф (1855) Наследственный гений: исследование его законов и последствий. Лондон: Макмиллан.
- Кимбелл, Р. А., Уиллер А., Миллер С. и Поллитт А. (2007) Отчет об оценке портфолио e-scape (электронные решения для творческой оценки в среде портфолио), фаза 2. TERU Goldsmiths, Лондонский университет ISBN 978-1-904158-79-0
- Поллитт, А (2004) Перестанем ставить оценки на экзаменах. Ежегодная конференция Международной ассоциации по оценке образования, Филадельфия, июнь. Доступны на http://www.camexam.co.uk публикации.
- Поллитт, А, (2009) Отмена марксизма и спасение действительности. Ежегодная конференция Международной ассоциации по оценке образования, Брисбен, сентябрь. Доступны на http://www.camexam.co.uk публикации.
- Поллитт, А. и Мюррей, Н. (1993) На что действительно обращают внимание оценщики. Коллоквиум по изучению языкового тестирования, Кембридж. Переиздано в Milanovic, M & Saville, N (Eds), Studies in Language Testing 3: Performance Testing, Cognition and Assessment, Cambridge University Press, Cambridge.