Нормативный тест
Нормативный тест ( NRT ) — это тип теста , оценки или оценки , который позволяет оценить положение тестируемого человека в заранее определенной популяции по отношению к измеряемому признаку. Присвоение баллов по таким тестам можно описать как относительную оценку , оценку на кривой ( BrE ) или оценку на кривой ( AmE , CanE ) (также называемую изогнутой оценкой , колоколообразной кривой или использованием оценочных кривых ). Это метод выставления оценок учащимся в классе таким образом, чтобы получить или приблизиться к заранее заданному распределению этих оценок, имеющему определенное среднее значение и свойства вывода, такие как нормальное распределение (также называемое распределением Гаусса ). [1] Термин «кривая» относится к колоколообразной кривой — графическому представлению плотности вероятности нормального распределения, но этот метод можно использовать для достижения любого желаемого распределения оценок — например, равномерного распределения . Оценка получается на основе анализа результатов тестов и, возможно, других соответствующих данных из выборки, составленной из населения. То есть этот тип теста определяет, справился ли тестируемый лучше или хуже, чем другие тестируемые, а не знает ли тестируемый больше или меньше материала, чем необходимо для данной цели. Термин «нормативная оценка» используется, когда референтной группой являются ровесники тестируемого.
Оценку, основанную на нормах, можно противопоставить оценке, основанной на критериях, и ипсативной оценке . При оценке, основанной на критериях, балл показывает, хорошо или плохо испытуемые выполнили данное задание, а не то, как это сравнивается с другими участниками теста; в ипсативной системе тестируемых сравнивают с предыдущими результатами. Каждый метод можно использовать для оценки одной и той же контрольной работы. [2]
Роберт Глейзер первоначально ввёл термины «тест, основанный на норме» и «тест, основанный на критериях» . [3]
Обычное использование
[ редактировать ]Многие вступительные экзамены в колледжи и школьные тесты, используемые на национальном уровне, используют тесты, соответствующие нормам. SAT шкала , выпускной экзамен (GRE) и интеллекта Векслера для детей (WISC) сравнивают успеваемость отдельных учащихся с успеваемостью нормативной выборки. Участники теста не могут «провалить» тест, соответствующий нормам, поскольку каждый участник теста получает оценку, сравнивающую его с другими, сдавшими тест, обычно определяемую процентилем. Это полезно, когда существует широкий диапазон приемлемых оценок и цель состоит в том, чтобы выяснить, кто работает лучше.
Тесты IQ — это тесты, основанные на нормах, поскольку их цель — оценить интеллект тестируемых. Средний IQ установлен на уровне 100, и все участники теста оцениваются выше или ниже по сравнению с этим уровнем.
Другие типы
[ редактировать ]В качестве альтернативы нормативному тестированию тестами могут быть ипсативные оценки или оценки, основанные на критериях.
ипсатив
[ редактировать ]При ипсативной оценке результативность людей сравнивается только с их предыдущими достижениями. [4] [5] Например, о человеке, соблюдающем диету для похудения, судят по тому, как его текущий вес соотносится с его собственным предыдущим весом, а не по тому, как его вес соотносится с идеалом или по сравнению с весом другого человека.
На основе критерия
[ редактировать ]Тест основан на критериях, когда производительность оценивается в соответствии с ожидаемым или желаемым поведением. Тесты, в которых оценивается участник теста на основе установленного стандарта (например, каждый должен быть в состоянии пробежать один километр менее чем за пять минут), представляют собой тесты, основанные на критериях. Цель теста, основанного на критериях, — выяснить, может ли человек бежать так быстро, как хочет тестирующий, а не выяснить, быстрее или медленнее этот человек, чем другие бегуны. Реформа образования, основанная на стандартах, фокусируется на тестировании на основе критериев. [6] [7] Большинство повседневных тестов и викторин, сдаваемых в школе, а также большинство государственных тестов и выпускных экзаменов средней школы основаны на критериях. В этой модели все участники теста могут пройти тест или не пройти его.
Методы
[ редактировать ]Один из методов оценки кривой состоит из трех этапов:
- числовые баллы (или, возможно, баллы по достаточно детальной порядковой шкале Учащимся присваиваются ). Абсолютные значения менее значимы при условии, что порядок баллов соответствует относительной успеваемости каждого студента в рамках курса.
- Эти оценки преобразуются в процентили (или другую систему квантилей ).
- Значения процентилей преобразуются в оценки в соответствии с разделением шкалы процентилей на интервалы, где ширина интервала каждой оценки указывает желаемую относительную частоту для этой оценки.
Например, если в конкретном университетском курсе есть пять оценок: A, B, C, D и F, где A зарезервировано для 20 % лучших студентов, B для следующих 30 %, C для следующих 30– 40 % и D или F для оставшихся 10–20 %, тогда баллы в процентильном интервале от 0 % до 10–20 % получат оценку D или F, баллы от 11–21 % до 50 % получат оценку D или F. Оценка C, баллы от 51 % до 80 % получают оценку B, а баллы от 81 % до 100 % получают оценку A.
В соответствии с примером, показанным выше, кривая оценок позволяет академическим учреждениям обеспечить распределение учащихся по определенным пороговым значениям среднего балла (GPA). Поскольку многие профессора устанавливают кривую, чтобы достичь средней оценки по курсу на уровне C, [ нужны разъяснения ] соответствующий средний балл будет равен 2,0 по стандартной шкале 4,0, используемой в большинстве университетов Северной Америки. [1] Аналогичным образом, средний балл 3,0 по шкале 4,0 будет указывать на то, что учащийся входит в число 20% лучших учеников класса. Кривые оценок придают этим цифрам дополнительную значимость, а конкретное распределение может варьироваться в зависимости от академического учреждения. [8]
Преимущества и ограничения
[ редактировать ]Основное преимущество эталонных тестов заключается в том, что они могут предоставить информацию о том, насколько результаты человека на тесте сравниваются с результатами других людей в референтной группе.
Серьезным ограничением эталонных тестов является то, что референтная группа может не представлять текущую популяцию, представляющую интерес. Как отмечается на Орегонского научно-исследовательского института : веб-сайте Международного пула личностных характеристик «Следует очень осторожно использовать стандартные «нормы», потому что не очевидно, что можно когда-либо найти популяцию, репрезентативной подгруппой которой является нынешняя выборка. Большинство «норм» вводят в заблуждение, и поэтому их не следует использовать. Гораздо более оправданными являются местные нормы, которые человек разрабатывает самостоятельно. Например, если кто-то хочет дать обратную связь членам класса, ему следует сопоставить баллы. для каждого человека к средним значениям и стандартным отклонениям, полученным из самого класса. Чтобы максимизировать информативность, можно предоставить учащимся распределение частот для каждой шкалы на основе этих местных норм, а затем люди могут найти (и обвести) свои собственные баллы. об этих соответствующих распределениях». [9]
Ссылка на нормы не гарантирует валидности теста (т. е. того, что он измеряет ту конструкцию, для измерения которой предназначен).
Еще одним недостатком тестов, основанных на нормах, является то, что они не могут измерить прогресс населения в целом, а только там, где отдельные лица попадают в это целое. Скорее, нужно измерять достижение определенной цели, например, чтобы измерить успех программы реформы образования, которая направлена на повышение успеваемости всех учащихся.
При использовании теста, основанного на нормах, уровень успеваемости традиционно устанавливался на уровне, установленном средними 50 процентами баллов. [10] Напротив, Национальный фонд детского чтения считает, что крайне важно обеспечить, чтобы практически все дети читали на уровне своего класса или выше к третьему классу, а эта цель не может быть достигнута с помощью определения уровня класса, основанного на нормах. [11]
Нормы не подразумевают автоматически стандарт. Тест, основанный на нормах, не направлен на то, чтобы навязывать какие-либо ожидания относительно того, что тестируемые должны знать или уметь делать. Он измеряет текущий уровень тестируемых путем сравнения их с их сверстниками. Система рангов предоставляет только данные, которые показывают, какие ученики учатся на среднем уровне, какие ученики учатся лучше, а какие хуже. Он не определяет, какие тестируемые способны правильно выполнить задания на уровне, приемлемом для трудоустройства или дальнейшего образования.
Конечная цель кривых оценок — свести к минимуму или устранить влияние различий между разными преподавателями одного и того же курса, гарантируя, что учащиеся любого класса оцениваются по сравнению со своими сверстниками. Это также позволяет обойти проблемы, связанные с использованием нескольких версий конкретного экзамена - метод, который часто используется, когда даты проведения тестов различаются в зависимости от секции класса. Независимо от разницы в уровне сложности, реальной или предполагаемой, кривая оценок обеспечивает сбалансированное распределение академических результатов.
Однако кривая система оценок может повысить конкуренцию между учащимися и повлиять на их чувство справедливости преподавателей в классе. Учащиеся, как правило, больше всего расстраиваются в том случае, если кривая снизила их оценку по сравнению с той, которую они получили бы, если бы кривая не использовалась. Чтобы этого не произошло, учителя обычно прилагают усилия к тому, чтобы сам тест был достаточно сложным, когда они собираются использовать оценочную кривую, так что они ожидают, что средний учащийся получит более низкий исходный балл, чем предполагалось. использоваться в среднем по кривой, гарантируя тем самым, что все учащиеся получат выгоду от кривой. Таким образом, кривые оценки нельзя использовать вслепую, их необходимо тщательно рассматривать и обдумывать по сравнению с такими альтернативами, как выставление оценок на основе критериев. Кроме того, постоянное неправильное использование кривых оценок может привести к корректировке оценок за плохо разработанные тесты, тогда как оценки должны быть разработаны так, чтобы точно отражать цели обучения, поставленные преподавателем. [12]
См. также
[ редактировать ]- Инвентаризация концепций
- Образовательная оценка
- Приравнивание
- Оценка в образовании
- Список кривых среднего балла юридической школы
- Жуткая константа
- Психометрия
- Стандартизированный тест — всем людям проводится один и тот же тест в одинаковых условиях; используется как для тестов, основанных на нормах, так и на критериях
Ссылки
[ редактировать ]- ^ Перейти обратно: а б Роэлл, Келли. «Что такое оценка по кривой?» . О сайте.com . Проверено 13 ноября 2013 г.
- ^ Кронбах, ЖЖ (1970). Основы психологического тестирования (3-е изд.). Нью-Йорк: Харпер и Роу.
- ^ Глейзер, Р. (1963). «Обучающая технология и измерение результатов обучения». Американский психолог . 18 : 510–522. дои : 10.1037/h0049294 .
- ^ Оценка
- ^ «PDF-презентация» (PDF) . Архивировано из оригинала (PDF) 24 сентября 2015 г. Проверено 21 июля 2006 г.
- ^ истории 5-01.html [ постоянная мертвая ссылка ] Fairtest.org: Время тестирования. Тесты, основанные на критериях, измеряют учащихся по фиксированному критерию, а не друг против друга.
- ^ «Совет по образованию штата Иллинойс — Стандарты обучения штата Иллинойс» . Архивировано из оригинала 14 апреля 2010 г. Проверено 14 апреля 2010 г. Стандарты обучения штата Иллинойс
- ^ Волох Евгений (9 февраля 2015 г.). «Во славу оценки по кривой» . Вашингтон Пост . Проверено 18 мая 2017 г.
Как и в случае с демократией, кривая оценка может оказаться наихудшей из возможных систем, если не считать всех альтернатив.
- ^ Научно-исследовательский институт Орегона, веб-сайт IPIP, http://ipip.ori.org/newNorms.htm.
- ^ [1] NCTM: Новости и СМИ: Проблемы оценки (информационный бюллетень, апрель 2004 г.) «по определению, половина учащихся страны в любой конкретный момент учатся ниже своего уровня»
- ^ [2] Архивировано 11 марта 2007 г. на Wayback Machine. веб-сайте Национального фонда детского чтения
- ^ Риз, Майкл (13 мая 2013 г.). «Искривиться или не кривиться» . Инновационный блог инструкторов . Университет Джонса Хопкинса . Проверено 13 мая 2013 г.