Оценка теста
Результат теста — это часть информации, обычно числовая, которая отражает результаты экзаменуемого на тесте . Одно из формальных определений состоит в том, что это «резюме доказательств, содержащихся в ответах испытуемого на элементы теста, которые связаны с измеряемым конструктом или конструктами». [ 1 ]
Результаты тестов интерпретируются с учетом норм или критериев , а иногда и того, и другого. Интерпретация, основанная на нормах, означает, что оценка передает значение об экзаменуемом с точки зрения его положения среди других экзаменуемых. Интерпретация, основанная на критериях, означает, что оценка передает информацию об экзаменуемом в отношении конкретного предмета, независимо от оценок других экзаменуемых. [ 2 ]
Типы
[ редактировать ]Существует два типа результатов тестов: необработанные оценки и масштабированные оценки . Необработанный результат — это результат без каких-либо корректировок или преобразований, например, простого количества правильных ответов на вопросы. Масштабированная оценка является результатом некоторых преобразований, примененных к исходной оценке, например, при относительной оценке .
Целью масштабированных оценок является представление оценок всех экзаменуемых по единой шкале. Предположим, что тест имеет две формы, одна из которых сложнее другой. Это было определено путем уравнения того, что балл 65% в форме 1 эквивалентен баллу 68% в форме 2. Баллы в обеих формах можно преобразовать в шкалу, чтобы эти два эквивалентных балла имели одинаковые зарегистрированные баллы. Например, они оба могут иметь оценку 350 по шкале от 100 до 500.
Два хорошо известных теста в США , которые имеют шкалу баллов, — это ACT и SAT. Шкала ACT варьируется от 0 до 36, а SAT — от 200 до 800 (по каждому разделу). Якобы эти две шкалы были выбраны для представления среднего и стандартного отклонения 18 и 6 (ACT), а также 500 и 100. Верхняя и нижняя границы были выбраны потому, что интервал плюс или минус три стандартных отклонения содержит более 99% население. Результаты, выходящие за пределы этого диапазона, трудно измерить, и они не имеют практической ценности.
Обратите внимание, что масштабирование не влияет на психометрические свойства теста; это то, что происходит после завершения процесса оценки (и приравнивания, если таковое имеется). Следовательно, это не проблема психометрии как таковой, а проблема интерпретируемости.
Оценка потери информации
[ редактировать ]Когда тесты оцениваются правильно или неправильно , делается важное предположение об обучении. Предполагается, что количество правильных ответов или сумма баллов по каждому пункту (если выставляется частичная оценка) являются подходящей и достаточной мерой текущего статуса успеваемости. ответах нет никакой значимой информации Кроме того, делается вторичное предположение, что в неправильных .
Во-первых, правильный ответ может быть получен с помощью запоминания без глубокого понимания основного содержания и концептуальной структуры поставленной задачи. Во-вторых, когда для решения требуется более одного шага, часто существует множество подходов к ответу, которые приведут к правильному результату. Тот факт, что ответ правильный, не указывает на то, какая из нескольких возможных процедур была использована. Когда студент дает ответ (или показывает работу), эту информацию можно легко получить из оригинальных документов.
Во-вторых, если бы неправильные ответы были слепыми догадками, среди этих ответов не было бы никакой информации. С другой стороны, если неправильные ответы отражают отклонения интерпретации от ожидаемой, эти ответы должны демонстрировать упорядоченную связь с тем, что измеряет общий тест. Это отклонение должно зависеть от уровня психолингвистической зрелости учащегося, выбирающего или дающего ответ на том языке, на котором написан тест.
Во втором случае должна быть возможность извлечь этот порядок из ответов на тестовые задания. [ 3 ] Такие процессы извлечения, модель Раша например, , являются стандартной практикой разработки изделий среди профессионалов. Однако, поскольку неправильные ответы отбрасываются в процессе подсчета баллов, анализ этих ответов на предмет информации, которую они могут содержать, проводится редко.
В-третьих, хотя иногда предоставляются оценки по тематическим субтестам, более распространенной практикой является сообщение общего балла или его измененной версии. Это изменение масштаба предназначено для сравнения этих оценок с каким-то стандартом. Такое дальнейшее свертывание результатов теста систематически удаляет всю информацию о том, какие именно элементы были пропущены.
Таким образом, при оценке теста «правильно-неправильно» теряется 1) то, как учащиеся добились правильных ответов, 2) что привело их к неприемлемым ответам и 3) где в рамках теста произошло это отклонение от ожиданий.
Из данного комментария следует, что существующая процедура выставления оценок скрывает динамику процесса сдачи теста и затемняет возможности оцениваемых студентов. Текущая практика оценки чрезмерно упрощает эти данные на начальном этапе оценки. Результатом этой процедурной ошибки является сокрытие диагностической информации, которая могла бы помочь учителям лучше обслуживать своих учеников. Кроме того, это не позволяет тем, кто усердно готовит эти тесты, увидеть информацию, которая в противном случае предупредила бы их о наличии этой ошибки.
Решение этой проблемы, известное как оценка спектра ответа (RSE), [ 4 ] В настоящее время разрабатывается система, способная восстанавливать все три формы потери информации, в то же время предоставляя числовую шкалу для определения текущего состояния производительности и отслеживания изменений производительности.
Этот подход RSE обеспечивает интерпретацию каждого ответа, будь то правильный или неправильный, что указывает на вероятные мыслительные процессы, используемые тестируемым. [ 5 ] Среди других выводов в этой главе сообщается, что восстанавливаемая информация объясняет в два-три раза больше вариативности теста, чем рассмотрение только правильных ответов. Такую огромную потерю информации можно объяснить тем фактом, что «неправильные» ответы удаляются из информации, собираемой в процессе выставления оценок, и больше не доступны для выявления процедурной ошибки, присущей подсчету правильных и неправильных ответов. Процедура обходит ограничения, налагаемые линейными зависимостями, присущими тестовым данным.
См. также
[ редактировать ]Ссылки
[ редактировать ]- ^ Тиссен, Д., и Вайнер, Х. (2001). Оценка теста. Махва, Нью-Джерси: Эрлбаум. Страница 1, предложение 1.
- ^ Руководство программ тестирования Айовы по интерпретации результатов тестов. Архивировано 12 февраля 2008 г. в Wayback Machine.
- ^ Пауэлл, Дж. К. и Шклов, Н. (1992) Журнал образовательных и психологических измерений , 52, 847–865.
- ^ «Добро пожаловать на главную страницу» . Архивировано из оригинала 30 апреля 2015 года . Проверено 2 мая 2015 г.
- ^ Пауэлл, Джей К. (2010) Тестирование как обратная связь для информирования преподавания. Глава 3 в; Обучение и обучение в эпоху цифровых технологий, Часть 1. Когнитивные подходы к обучению и обучению. ( Дж. Майкл Спектор , Дирк Ифенталер, Педро Исайас, Киншук и Деметриос Сэмпсон, ред.), Нью-Йорк: Springer. ISBN 978-1-4419-1551-1 , дои : 10.1007/978-1-4419-1551-1