Адаптивное сравнительное суждение

Адаптивное сравнительное суждение – это метод, заимствованный из психофизики , который способен генерировать надежные результаты для оценки образования – как таковой он является альтернативой традиционным оценкам экзаменационных сценариев. При таком подходе судьям предлагаются пары студенческих работ, а затем их просят выбрать, какая из них лучше: одна или другая. Затем с помощью итеративного и адаптивного алгоритма можно получить масштабированное распределение студенческих работ без привязки к критериям.

Введение

Традиционная выставление оценок по сценариям экзаменов началось в Кембридже в 1792 году, когда с ростом числа студентов стала возрастать важность правильного ранжирования студентов. Поэтому в 1792 году новый проктор экзаменов Уильям Фэриш ввел выставление оценок — процесс, в котором каждый экзаменатор выставляет числовой балл за каждый ответ каждого студента, а общая общая оценка выставляет студентов в окончательный порядок рангов. Фрэнсис Гальтон (1869) отметил, что в неустановленном году, примерно в 1863 году, Старший Рэнглер набрал 7634 балла из максимальных 17 000, а Второй Рэнглер набрал 4123 балла. («Деревянная ложка» набрала всего 237 баллов.)

До 1792 года команда кембриджских экзаменаторов собиралась в 17:00 в последний день экзаменов, просматривала 19 работ, сданных каждым студентом, и в полночь публиковала порядок их рангов. Маркировка решила проблемы с цифрами и предотвратила несправедливую личную предвзятость, а ее введение стало шагом к современному объективному тестированию, формату, для которого она лучше всего подходит. Но последовавшая за этим технология тестирования с ее основным упором на надежность и автоматизацию выставления оценок оказалась неудобным партнером в некоторых областях образовательных достижений: оценка письменной или устной речи, а также других видов успеваемости требует чего-то более качественного и субъективного.

Техника адаптивного сравнительного суждения является альтернативой выставлению оценок. Он возвращается к идее сортировки бумаг по их качеству, существовавшей до 1792 года, но сохраняет гарантию надежности и справедливости. Это, безусловно, самый надежный способ оценить эссе или более сложные выступления. ^{[ нужна ссылка ]}. Это намного проще, чем выставление оценок, и его предпочитают почти все экзаменаторы, которые его пробовали. Настоящая привлекательность адаптивного сравнительного суждения заключается в том, как оно может повысить профессионализм деятельности по оцениванию и как оно может реинтегрировать оценивание с обучением.

История

Закон сравнительного суждения Терстоуна

«Не существует такого понятия, как абсолютное суждение»
- Лэминг (2004) ^[1]

Наука сравнительного суждения началась с Луи Леона Терстоуна из Чикагского университета . Пионер психофизики , он предложил несколько способов построения шкал для измерения ощущений и других психологических свойств. Одним из них был закон сравнительного суждения (Thurstone, 1927a, 1927b), ^[2]^[3] который определил математический способ моделирования вероятности того, что один объект «превзойдет» другой в сравнении, учитывая значения «качества» каждого. Это все, что необходимо для построения полноценной измерительной системы.

Вариант его модели (см. Парное сравнение и модель BTL) утверждает, что разница между их значениями качества равна логарифму шансов на то, что объект-A превзойдет объект-B:

\mathrm {log\;odds} (A\ {\text{beats}}\ B\mid v_{a},v_{b})=v_{a}-v_{b}

До появления современных компьютеров математика, необходимая для расчета «значений» качества каждого объекта, означала, что этот метод можно было использовать только с небольшими наборами объектов, и его применение было ограничено. Для Терстона объектами обычно были ощущения, такие как интенсивность, или отношения, такие как серьезность преступлений, или высказывания мнений. Социологи продолжали использовать этот метод, как и исследователи рынка, для которых объектами могли быть различные планировки гостиничных номеров или варианты предлагаемого нового печенья.

В 1970-х и 1980-х годах сравнительное суждение появилось почти впервые в сфере образовательной оценки в качестве теоретической основы или предшественника новых теорий скрытых черт или теорий реакции на предмет. (Андрич, 1978). Эти модели теперь являются стандартными, особенно в системах хранения элементов и адаптивных системах тестирования.

Повторное введение в образование

Первой опубликованной статьей, использующей сравнительное суждение в образовании, была Pollitt & Murray (1994), по сути, исследовательская работа, посвященная природе шкалы владения английским языком, оцениваемой в устной части Кембриджского экзамена CPE. Объектами были кандидаты, представленные двухминутными фрагментами видеозаписей их тестовых сессий, а судьями — аспиранты лингвистики, не прошедшие оценочную подготовку. Судьи сравнили пары видеофрагментов, просто сообщив, какой студент, по их мнению, является лучшим, а затем были подвергнуты клиническому собеседованию, чтобы выяснить причины своих решений.

Затем Поллитт представил британским органам, присуждающим награды, сравнительное суждение как метод сравнения стандартов уровней A разных комиссий. Сравнительное суждение заменило существующий метод, который требовал прямого сопоставления сценария с официальным стандартом другой доски. В течение первых двух или трех лет Поллитт проводил весь анализ всех плат, используя программу, которую он написал для этой цели. Он сразу же стал единственным экспериментальным методом, используемым для исследования сопоставимости экзаменов в Великобритании; заявки с этой целью с 1996 по 2006 год полностью описаны в Bramley (2007). ^[4]

В 2004 году Поллитт представил на конференции Международной ассоциации оценки образования доклад под названием «Давайте перестанем выставлять оценки на экзаменах», а на той же конференции в 2009 году — еще один доклад под названием «Отмена марксизма». В каждой статье цель заключалась в том, чтобы убедить сообщество специалистов по оценке в том, что использование сравнительного суждения вместо выставления оценок для некоторых типов оценок дает значительные преимущества. В 2010 году он представил Европейской ассоциации оценки образования доклад «Как надежно и достоверно оценить письмо», в котором были представлены доказательства чрезвычайно высокой надежности, достигнутой с помощью сравнительного суждения при оценке навыков учеников начальной школы в английском языке на первом языке. письмо.

Адаптивное сравнительное суждение

Сравнительное суждение становится жизнеспособной альтернативой выставлению оценок, если оно реализовано в виде адаптивной веб-системы оценки. При этом «баллы» (параметр модели для каждого объекта) переоцениваются после каждого «раунда» оценок, в ходе которого в среднем каждый объект оценивается еще раз. В следующем раунде каждый сценарий сравнивается только с другим, чья текущая оценочная оценка аналогична, что увеличивает объем статистической информации, содержащейся в каждом решении. В результате процедура оценки более эффективна, чем случайное спаривание или любая другая заранее определенная система спаривания, подобная тем, которые используются в классических приложениях сравнительного суждения. (Поллитт, 2012). ^[5]

Как и в случае с компьютерно-адаптивным тестированием, эта адаптивность максимизирует эффективность процедуры оценки, увеличивая разделение оценок и уменьшая стандартные ошибки. Наиболее очевидным преимуществом является то, что это обеспечивает значительно повышенную надежность по сравнению с оценкой путем выставления оценок без потери достоверности.

Неизвестно, действительно ли адаптивное сравнительное суждение повышает надежность. (Брэмли, Вителло, 2016). ^[6]

Текущие проекты сравнительного суждения

RM Сравнить

RM Compare — это оригинальная адаптивная система сравнительного оценивания. ^[7] Система, первоначально разработанная под названием CompareAssess компанией Digital Assess, ранее называвшейся TAG Developments, предназначена для масштабного внедрения адаптивных сравнительных суждений и использовалась по всему миру в широком диапазоне контекстов.

Сравнительное суждение

Компания No More Marking создала онлайн-приложение для сравнительного суждения, а также хранилище полезной информации.

побег

Первое применение сравнительного суждения для прямой оценки студентов было в проекте под названием e-scape , возглавляемом профессором Ричардом Кимбеллом из Голдсмитс-колледжа Лондонского университета (Kimbell & Pollitt, 2008). ^[8] Работа по разработке проводилась в сотрудничестве с рядом организаций, присуждающих награды, в рамках курса «Дизайн и технологии». Команда Кимбелла разработала сложный и аутентичный проект, в котором студентам необходимо было разработать прототип такого объекта, как детский дозатор таблеток, за два трехчасовых занятия под наблюдением.

Веб-система оценки была разработана Каримом Дерриком и Декланом Линчем из TAG Developments, которая сейчас является частью Digital Assess, и основана на оригинальной системе портфолио оценки MAPS (программное обеспечение), теперь известной как Manage. Goldsmiths, TAG Developments и Pollitt провели три испытания, увеличив размер выборки с 20 до 249 студентов и разработав как систему судейства, так и систему оценивания. Есть три пилотных проекта, включающих географию и естественные науки, а также оригинальный проект в области дизайна и технологий.

письмо в начальной школе

В конце 2009 года TAG Developments и Pollitt опробовали новую версию системы оценки письма. В общей сложности 1000 сценариев начальной школы были оценены командой из 54 судей в моделированном контексте национальной оценки. Надежность полученных оценок после того, как каждый сценарий был оценен 16 раз, составила 0,96, что значительно выше, чем в любом другом опубликованном исследовании аналогичной оценки письма. Дальнейшее развитие системы показало, что надежность 0,93 может быть достигнута примерно после 9 решений каждого сценария, при этом система не дороже одиночной маркировки, но все же гораздо надежнее. ^[5]

Дальнейшие проекты

В настоящее время реализуется несколько проектов в Англии, Шотландии, Ирландии, Израиле, Сингапуре и Австралии. В зависимости от контекста они варьируются от начальной школы до университета и включают как формативное, так и итоговое оценивание, от письма до математики. Базовая веб-система теперь доступна на коммерческой основе от TAG Assessment ( http://www.tagassessment.com ) и может быть модифицирована в соответствии с конкретными потребностями.

ACJ использовался Сири, Кэнти, Гордоном и Лейном в Университете Лимерика, Ирландия, для оценки работ студентов бакалавриата по программам начального педагогического образования с 2009 года. ACJ также использовался доктором Бартоломью в Университете Пердью для оценки портфолио дизайнеров на среднем уровне. , школьники и студенты. Варфоломей также использовал ACJ в качестве инструмента формирующего оценивания и обучения для решения открытых задач.

Ссылки

^ * Ламинг, DRJ (2004) Человеческое суждение: глаз смотрящего. Лондон, Томсон.
^ Терстон, LL (1927a). Психофизический анализ . Американский журнал психологии, 38, 368–389. Глава 2 в Thurstone, LL (1959). Измерение ценностей. Издательство Чикагского университета, Чикаго, Иллинойс.
^ Терстон, LL (1927b). Метод парных сравнений социальных ценностей . Журнал аномальной и социальной психологии, 21, 384–400. Глава 7 в Thurstone, LL (1959). Измерение ценностей. Издательство Чикагского университета, Чикаго, Иллинойс
^ Брэмли, Т. (2007) Методы парного сравнения . В книге Ньютон П., Бэрд Дж., Патрик Х., Гольдштейн Х., Тиммс П. и Вуд А. (ред.). Методики контроля сопоставимости экзаменационных стандартов. Лондон , QCA.
^ Перейти обратно: ^а ^б Поллитт, А. (2012) Метод адаптивного сравнительного суждения. Оценка в образовании: принципы, политика и практика. 19:3, 1-20. DOI:10.1080/0969594X.2012.665354
^ Брэмли, Т. и Вителло, С. (2016) Влияние адаптивности на коэффициент надежности в адаптивных сравнительных суждениях. Оценка в образовании: принципы, политика и практика. 26:1, 43–58. DOI:10.1080/0969594X.2017.1418734
^ RM Сравнить
^ Кимбелл Р. А. и Поллитт А. (2008) Оценка курсовой работы на экзаменах с высокими ставками: подлинность, креативность, надежность Третья международная конференция по измерениям Раша . Перт: Западная Австралия: январь.

Поллитт, А. (2015) О предвзятости надежности в ACJ: достоверное моделирование адаптивного сравнительного суждения. Исследование Кембриджского экзамена: Кембридж, Великобритания. Доступно по адресу https://www.researchgate.net/publication/283318012_On_%27Reliability%27_bias_in_ACJ.
APA, AERA и NCME (1999) Стандарты образовательного и психологического тестирования.
Гальтон, Ф. (1855) Наследственный гений: исследование его законов и последствий. Лондон: Макмиллан.
Кимбелл, Р.А., Уиллер А., Миллер С. и Поллитт А. (2007) «Электронная оценка портфолио» (электронные решения для творческой оценки в среде портфолио), отчет по этапу 2 . ТЕРУ Голдсмитс, Лондонский университет ISBN 978-1-904158-79-0
Поллитт, А. (2004) Давайте перестанем выставлять оценки на экзаменах. Ежегодная конференция Международной ассоциации оценки образования, Филадельфия, июнь . Доступно в публикациях http://www.camexam.co.uk .
Поллитт, А. (2009) Отмена марксизма и спасение обоснованности . Ежегодная конференция Международной ассоциации оценки образования, Брисбен, сентябрь. Доступно в публикациях http://www.camexam.co.uk .
Поллитт А. и Мюррей Н. (1993) На что действительно обращают внимание оценщики . Коллоквиум по исследованию языкового тестирования, Кембридж. Переиздано в: Миланович, М. и Сэвилл, Н. (редакторы), «Исследования по языковому тестированию 3: тестирование производительности, познание и оценка», издательство Cambridge University Press, Кембридж.

Внешние ссылки

[1] * Ламинг, DRJ (2004) Человеческое суждение: глаз смотрящего. Лондон, Томсон.

[2] Терстон, LL (1927a). Психофизический анализ . Американский журнал психологии, 38, 368–389. Глава 2 в Thurstone, LL (1959). Измерение ценностей. Издательство Чикагского университета, Чикаго, Иллинойс.

[3] Терстон, LL (1927b). Метод парных сравнений социальных ценностей . Журнал аномальной и социальной психологии, 21, 384–400. Глава 7 в Thurstone, LL (1959). Измерение ценностей. Издательство Чикагского университета, Чикаго, Иллинойс

[4] Брэмли, Т. (2007) Методы парного сравнения . В книге Ньютон П., Бэрд Дж., Патрик Х., Гольдштейн Х., Тиммс П. и Вуд А. (ред.). Методики контроля сопоставимости экзаменационных стандартов. Лондон , QCA.

[p2012-5] Перейти обратно: ^а ^б Поллитт, А. (2012) Метод адаптивного сравнительного суждения. Оценка в образовании: принципы, политика и практика. 19:3, 1-20. DOI:10.1080/0969594X.2012.665354

[p2016-6] Брэмли, Т. и Вителло, С. (2016) Влияние адаптивности на коэффициент надежности в адаптивных сравнительных суждениях. Оценка в образовании: принципы, политика и практика. 26:1, 43–58. DOI:10.1080/0969594X.2017.1418734

[7] RM Сравнить

[8] Кимбелл Р. А. и Поллитт А. (2008) Оценка курсовой работы на экзаменах с высокими ставками: подлинность, креативность, надежность Третья международная конференция по измерениям Раша . Перт: Западная Австралия: январь.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]