Автоматическое создание предметов
Автоматическая генерация заданий ( AIG ), или автоматизированная генерация заданий , — это процесс, связывающий психометрию с компьютерным программированием. Он использует компьютерный алгоритм для автоматического создания тестовых заданий , которые являются основными строительными блоками психологического теста . Метод был впервые описан Джоном Р. Бормутом. [1] в 1960-х годах, но не был разработан до недавнего времени. AIG использует двухэтапный процесс: сначала специалист по тестированию создает шаблон, называемый моделью элемента; затем разрабатывается компьютерный алгоритм для создания тестовых заданий. [2] Таким образом, вместо того, чтобы специалист по тестированию писал каждый отдельный элемент, компьютерные алгоритмы генерируют семейства элементов из меньшего набора моделей родительских элементов. [3] [4] [5] Совсем недавно нейронные сети, в том числе модели большого языка, такие как семейство GPT, успешно использовались для автоматического создания элементов. [6] [7]
Контекст
[ редактировать ]При психологическом тестировании ответы тестируемого на тестовые задания предоставляют объективные данные измерения различных характеристик человека. [8] Некоторые характеристики, измеряемые с помощью психологических и образовательных тестов, включают академические способности, успеваемость в школе, интеллект , мотивацию и т. д., и эти тесты часто используются для принятия решений, которые имеют значительные последствия для отдельных лиц или групп людей. Достижение стандартов качества измерений, таких как валидность тестов , является одной из наиболее важных задач психологов и педагогов. [9] AIG — это подход к разработке тестов, который можно использовать для поддержания и улучшения качества тестов с экономической точки зрения в современной среде, где компьютеризированное тестирование увеличило потребность в большом количестве тестовых заданий. [5]
Преимущества
[ редактировать ]AIG снижает затраты на производство стандартизированных тестов , [10] поскольку алгоритмы могут генерировать гораздо больше элементов за заданный промежуток времени, чем специалист по тестированию на людях. Он может быстро и легко создавать параллельные формы тестов, которые позволяют различным участникам теста подвергаться воздействию разных групп тестовых заданий одного и того же уровня сложности или трудности, тем самым повышая безопасность теста. [3] В сочетании с компьютеризированным адаптивным тестированием AIG может генерировать новые задания или выбирать, какие уже сгенерированные задания следует применять следующим, в зависимости от способностей тестируемого во время проведения теста. Ожидается также, что AIG будет производить предметы с широким диапазоном сложности, с меньшим количеством ошибок в конструкции и, как ожидается, обеспечит более высокую сопоставимость предметов благодаря более систематическому определению модели прототипа предмета. [3] [11] [12]
Радикалы, инциденталии и изоморфы
[ редактировать ]Разработка тестов (включая AIG) может быть обогащена, если она основана на какой-либо когнитивной теории. Когнитивные процессы, взятые из данной теории, часто сопоставляются с особенностями предметов при их построении. Целью этого является предварительное определение заданного психометрического параметра, такого как сложность задания (в дальнейшем: β ). Пусть радикалы [11] Это те структурные элементы, которые существенно влияют на параметры предмета и предъявляют к предмету определенные когнитивные требования. Одним или несколькими радикалами модели элемента можно манипулировать, чтобы создать модели родительского элемента с различными параметрами (например, β ) уровни. Затем каждый родитель может вырастить свою собственную семью, манипулируя другими элементами, которые Ирвин [11] называются непредвиденными обстоятельствами . Случайные элементы — это поверхностные особенности, которые подвержены случайным изменениям от предмета к предмету в пределах одного семейства. Предметы, которые имеют одинаковую структуру радикалов и различаются только второстепенными элементами, обычно называют изоморфами. [13] или клоны . [14] [15] Клонирование элемента может быть двух видов: с одной стороны, модель элемента может состоять из элемента с одним или несколькими открытыми местами, причем клонирование осуществляется путем заполнения каждого места элементом, выбранным из списка возможностей. С другой стороны, модель предмета может представлять собой неповрежденный предмет, который клонируется путем внесения преобразований, например, изменения угла объекта в тестах пространственных способностей. [16] Изменение характеристик поверхности этих предметов не должно существенно влиять на ответы испытуемого. По этой причине считается, что случайные явления вызывают лишь незначительные различия между параметрами элементов изоморфов. [3]
Текущие события
[ редактировать ]Ряд генераторов элементов был подвергнут объективному проверочному тестированию.
MathGen — это программа, которая генерирует задания для проверки математических достижений. В статье, опубликованной в журнале Journal of Educational Measurement в 2018 году , авторы Эмбретсон и Кингстон провели обширный качественный обзор и эмпирические испытания для оценки качественных и психометрических свойств сгенерированных заданий и пришли к выводу, что задания были успешными и что задания, созданные на основе одного и того же предмета, структура имела предсказуемые психометрические свойства. [17] [18]
Тест мелодической дискриминации, разработанный с помощью вычислительной модели Рахмана-июнь 2015 г. [19] вводили участникам исследования 2017 года. Согласно данным, собранным П.М. Харрисоном и др., результаты демонстрируют высокую достоверность и надежность. [20]
Феррейра и Бакхофф-Эскудеро [21] разработали две параллельные версии экзамена по базовым компетенциям (Excoba), общего теста образовательных навыков, используя разработанную ими программу под названием GenerEx. Затем они изучили внутреннюю структуру, а также психометрическую эквивалентность созданных тестов. Эмпирические результаты психометрического качества в целом благоприятны, а тесты и задания согласуются по множеству психометрических показателей.
Герл и его коллеги [22] [23] [24] [25] использовал программу AIG под названием Item Generator (IGOR [26] ) для создания заданий с несколькими вариантами ответов, проверяющих медицинские знания. Созданные IGOR предметы, даже по сравнению с предметами, созданными вручную, показали хорошие психометрические свойства.
Арендаси, Соммер и Майр [27] использовали AIG для создания вербальных заданий для проверки беглости речи на немецком и английском языках, раздавая их немецко- и англоговорящим участникам соответственно. Сгенерированные компьютером тесты показали приемлемые психометрические свойства. Наборы заданий, предназначенных для этих двух групп, были основаны на общем наборе межъязыковых опорных пунктов, что способствовало межъязыковому сравнению результатов.
Холлинг, Бертлинг и Цойх [28] использовал теорию вероятностей для автоматического создания математических словесных задач с ожидаемыми трудностями. Они добились Раша [29] Соответствие модели и трудности с товарами можно объяснить с помощью модели линейного логистического тестирования (LLTM [30] ), а также LLTM Random-Effects. Холлинг, Бланк, Кухенбекер и Кун [31] провел аналогичное исследование со статистическими текстовыми задачами, но без использования AIG. Арендасы и его коллеги [32] [33] представил исследования автоматически генерируемых задач по алгебре и рассмотрел, как система контроля качества AIG может повлиять на качество измерения предметов.
Автоматическое создание фигурных предметов
[ редактировать ]Item Maker (IMak) — это программа, написанная на языке программирования R для построения фигурных аналогий. Психометрические свойства 23 заданий, сгенерированных IMak, оказались удовлетворительными, а сложность заданий, основанная на создании правил, можно было предсказать с помощью модели линейного логистического тестирования (LLTM). [3]
MazeGen — еще одна программа, написанная на R, которая автоматически генерирует лабиринты. Психометрические свойства 18 таких лабиринтов оказались оптимальными, включая соответствие модели Раша и прогноз сложности лабиринта с помощью LLTM. [34]
GeomGen — программа, генерирующая фигурные матрицы. [35] Исследование, которое выявило источники систематической ошибки измерения, связанные со стратегиями исключения ответов для элементов фигуральной матрицы, пришло к выводу, что заметность отвлекающего фактора способствует реализации стратегий исключения ответов и что эти знания могут быть включены в AIG для улучшения конструктной валидности таких элементов. [36] Та же группа использовала AIG для изучения дифференциального функционирования предметов (DIF) и гендерных различий, связанных с мысленным вращением . Они манипулировали особенностями дизайна предметов, которые в предыдущих исследованиях демонстрировали гендерные различия, и показали, что оценки размера эффекта гендерных различий были скомпрометированы наличием различных видов гендерных различий, которые могли быть связаны с конкретными особенностями дизайна предметов. [37] [38]
Арендаси также изучил возможные нарушения психометрического качества, выявленные с помощью теории реагирования на предметы (IRT) автоматически генерируемых заданий зрительно-пространственного мышления. Для этого он представил две программы, а именно: уже упомянутую GeomGen [35] и генератор бесконечного цикла (EsGen). Он пришел к выводу, что GeomGen больше подходит для AIG, поскольку принципы IRT можно использовать при создании элементов. [39] В параллельном исследовательском проекте с использованием GeomGen, Arendasy и Sommer [40] обнаружили, что изменение перцептивной организации предметов может влиять на успеваемость респондентов в зависимости от уровня их способностей и что это влияет на несколько психометрических показателей качества. Эти результаты поставили под сомнение предположение об одномерности элементов фигуральной матрицы в целом.
MatrixРазработчик [41] использовался для автоматического создания двадцати пяти элементов квадратной матрицы 4х4. Эти предметы были переданы 169 лицам. Согласно результатам исследования, задания хорошо соответствуют модели Раша , а генерация на основе правил может объяснить сложность задания. [42]
Первый известный генератор матриц предметов был разработан Эмбретсоном. [43] [14] и ее автоматически сгенерированные задания продемонстрировали хорошие психометрические свойства, как показали Эмбретсон и Рейз. [44] Она также предложила модель адекватного создания онлайн-материалов.
Ссылки
[ редактировать ]- ^ Бормут, Дж. (1969). По теории достижений тестовые задания . Чикаго, Иллинойс: Издательство Чикагского университета.
- ^ Герл, MJ, и Халадина, TM (2012). Автоматическое создание предметов, теория и практика . Нью-Йорк, штат Нью-Йорк: Рутледж Чепмен и Холл.
- ^ Jump up to: а б с д и Блюм, Диего; Холлинг, Хайнц (6 августа 2018 г.). «Автоматическое создание фигуральных аналогий с помощью пакета IMak» . Границы в психологии . 9 : 1286. дои : 10.3389/fpsyg.2018.01286 . ПМК 6087760 . ПМИД 30127757 . Материал был скопирован из этого источника, который доступен по международной лицензии Creative Commons Attribution 4.0 .
- ^ Глас, CAW, ван дер Линден, WJ, и Герлингс, Х. (2010). Оценка параметров модели клонирования элементов для адаптивного тестирования. В WJ van der Linden и CAW Glas (ред.). Элементы адаптивного тестирования (стр. 289–314). DOI: 10.1007/978-0-387-85461-8_15.
- ^ Jump up to: а б Гирл, М.Дж., и Лай, Х. (2012). Роль моделей предметов в автоматической генерации предметов. Международный журнал испытаний, 12 (3), 273–298. DOI: 10.1080/15305058.2011.635830.
- ^ фон Давьер, М. Автоматизированное создание элементов с помощью рекуррентных нейронных сетей. Психометрика 83, 847–857 (2018). https://doi.org/10.1007/s11336-018-9608-y
- ^ Янева В. и фон Давьер М. (ред.). (2023). Развитие обработки естественного языка в оценке образования (1-е изд.). Рутледж. https://doi.org/10.4324/9781003278658
- ^ Ван дер Линден, WJ, и Хэмблтон, РК (1997). Теория реагирования на предмет: краткая история, общие модели и расширения. В Р.К. Хэмблтоне и У.Дж. ван дер Линдене (ред.). Справочник по современной теории реагирования на предметы (стр. 1–31). Нью-Йорк: Спрингер.
- ^ Эмбретсон, SE (1999). Проблемы измерения когнитивных способностей. В SE Embretson и SL Hershberger (ред.). Новые правила измерения (с. 1–15). Махва: Lawrence Erlbaum Associates.
- ^ Руднер, Л. (2010). Внедрение компьютерного адаптивного теста для поступления в аспирантуру. В WJ van der Linden и CAW Glas (ред.). Элементы адаптивного тестирования (стр. 151–165). DOI: 10.1007/978-0-387-85461-8_15.
- ^ Jump up to: а б с Ирвин, С. (2002). Основы создания предметов для массового тестирования. В SH Irvine и PC Kyllonen (ред.). Генерация заданий для разработки тестов (стр. 3–34). Махва: Lawrence Erlbaum Associates.
- ^ Лай, Х., Алвес, К., и Гирл, М.Дж. (2009). Использование автоматического создания элементов для удовлетворения потребностей в элементах для CAT. В DJ Weiss (ред.), Материалы конференции GMAC 2009 г. по компьютеризированному адаптивному тестированию . Веб-сайт: www.psych.umn.edu/psylabs/CATCentral.
- ^ Бежар, II (2002). Генеративное тестирование: от концепции к реализации в Item Generation for Test Development , под ред. С.Х. Ирвин и П.К. Киллонен (Махва, Нью-Джерси: Lawrence Erlbaum Associates), 199–217.
- ^ Jump up to: а б Эмбретсон, SE (1999). Генерация заданий во время тестирования: психометрические проблемы и модели. Психометрика, 64 (4), 407–433.
- ^ Арендаси, М.Э., и Соммер, М. (2012). Использование автоматического создания заданий для удовлетворения растущих требований к заданиям для оценки образования и профессиональной деятельности. Обучение и индивидуальные различия, 22 , 112–117. doi: 10.1016/j.lindif.2011.11.005.
- ^ Глас, CAW, и ван дер Линден, WJ (2003). Компьютеризированное адаптивное тестирование с клонированием заданий. Прикладное психологическое измерение, 27 , 247–261. дои: 10.1177/0146621603027004001.
- ^ Эмбретсон, ЮВ, и Кингстон, Нью-Мексико (2018). Автоматическое создание заданий: более эффективный процесс разработки заданий по математике? Журнал образовательных измерений, 55 (1), 112–131. DOI: 10.1111/jedm.12166
- ^ Уилсон Дж., Моррисон К. и Эмбретсон С.Э. (2014). Автоматический генератор предметов математических достижений: MathGen3.0 . Технический отчет IES1005A-2014 для гранта Института педагогических наук R305A100234. Атланта, Джорджия: Лаборатория когнитивных измерений, Джорджия, Технологический институт.
- ^ Коллинз Т., Лэйни Р., Уиллис А. и Гартуэйт ПХ (2016). Разработка и оценка вычислительных моделей музыкального стиля. Искусственный интеллект для инженерного проектирования, анализа и производства, 30 , 16–43. DOI: 10.1017/S0890060414000687.
- ^ Харрисон, П.М., Коллинз, Т. и Мюллензифен, Д. (2017). Применение современных психометрических методов для тестирования мелодической дискриминации: теория ответов на задания, компьютеризированное адаптивное тестирование и автоматическое создание заданий. Научные отчеты, 7 (3618), 1–18.
- ^ Феррейра, М.Ф., и Бакхофф-Эскудеро, Э. (2016). Действительность автоматического генератора заданий для экзамена по базовым компетенциям (Excoba). Рельефная, 22 (1), арт. 2, 1–16. DOI: 10.7203/relieve.22.1.8048.
- ^ Герл, М.Дж., Лай, Х., Пью, Д., Тучи, К., Буле, AP, и Де Шамплен, А. (2016). Оценка психометрических характеристик сгенерированных тестовых заданий с несколькими вариантами ответов. Прикладные измерения в образовании, 29 (3), 196–210. DOI: 10.1080/08957347.2016.1171768.
- ^ Лай, Х., Герл, М.Дж., Бирн, Б.Е., Шпильман, А.И., и Вальдшмидт, Д.М. (2016). Три приложения для моделирования, способствующие автоматическому созданию заданий для обследований в стоматологии. Журнал стоматологического образования, 80 (3), 339–347.
- ^ Герл, М.Дж., и Лай, Х. (2013). Оценка качества медицинских изделий с множественным выбором, созданных с помощью автоматизированных процессов. Медицинское образование, 47 , 726–733. DOI: 10.1111/medu.12202.
- ^ Герл, М.Дж., Лай, Х., и Тернер, С.Р. (2012). Использование автоматического создания заданий для создания тестовых заданий с множественным выбором. Медицинское образование, 46 (8), 757–765. DOI: 10.1111/j.1365-2923.2012.04289.x.
- ^ Герл, М.Дж., Чжоу, Дж., и Алвес, К. (2008). Разработка таксономии типов режимов элементов для продвижения техники оценки. Оценка J technol Learn, 7 (2), 1–51.
- ^ Арендаси, М.Э., Соммер, М., и Майр, Ф. (2011). Использование автоматического создания заданий для одновременного создания немецкой и английской версий теста на беглость слова. Журнал кросс-культурной психологии, 43 (3), 464–479. DOI: 10.1177/0022022110397360.
- ^ Холлинг, Х., Бертлинг, Дж. П., и Цойх, Н. (2009). Автоматическое создание задач о вероятностных словах. Исследования по оценке образования, 35 (2–3), 71–76.
- ^ Раш, Г. (1960). Вероятностные модели для некоторых тестов интеллекта и достижений . Чикаго: Издательство Чикагского университета.
- ^ Фишер, GH (1973). Линейная логистическая тестовая модель как инструмент образовательных исследований. Acta Psychology, 37 , 359–374. DOI: 10.1016/0001-6918(73)90003-6.
- ^ Холлинг, Х., Бланк, Х., Кухенбекер, К., и Кун, Дж. Т. (2008). Разработка статистических словесных задач на основе правил: обзор и первая реализация. Психологическая наука ежеквартально, 50 (3), 363–378.
- ^ Арендаси, М.Э., Соммер, М., Гиттлер, Г., и Гергович, А. (2006). Автоматическое создание элементов количественного рассуждения. Пилотное исследование. Журнал индивидуальных различий, 27 (1), 2–14. ДОИ: 10.1027/1614-0001.27.1.2.
- ^ Арендаси, М.Э., и Соммер, М. (2007). Использование психометрической технологии в образовательной оценке: случай изоморфного подхода на основе схемы к автоматической генерации элементов количественного рассуждения. Обучение и индивидуальные различия, 17 (4), 366–383. DOI: 10.1016/j.lindif.2007.03.005.
- ^ Ло, Б.С., и Раст, Дж. (2017). Повторный тест перцептивного лабиринта: оценка сложности автоматически создаваемых лабиринтов. Оценка , 1–16. DOI: 10.1177/1073191117746501.
- ^ Jump up to: а б Арендаси, М. (2002). Geom-Gen — Генератор элементов для матричных тестовых задач . Вена: Самостоятельная публикация.
- ^ Арендаси, М.Э., и Соммер, М. (2013). Сокращение стратегий исключения ответов повышает конструктивную достоверность фигурных матриц. Интеллект, 41 , 234–243. DOI: 10.1016/j.intell.2013.03.006.
- ^ Арендаси, М.Э., и Соммер, М. (2010). Оценка вклада различных характеристик предметов в величину эффекта гендерных различий в трехмерном ментальном вращении с использованием автоматического создания предметов. Интеллект, 38 (6), 574–581. DOI:10.1016/j.intell.2010.06.004.
- ^ Арендаси, М.Э., Соммер, М., и Гиттлер, Г. (2010). Сочетание автоматического создания заданий и экспериментальных планов для изучения вклада когнитивных компонентов в гендерные различия в умственном вращении. Интеллект, 38 (5), 506–512. DOI:10.1016/j.intell.2010.06.006.
- ^ Арендаси, М. (2005). Автоматическое создание элементов, калиброванных по Rasch: тест фигуральных матриц GEOM и тест Endless-Loops Test EC. Международный журнал испытаний, 5 (3), 197–224.
- ^ Арендаси, М.Э., и Соммер, М. (2005). Влияние различных типов перцептивных манипуляций на размерность автоматически генерируемых фигурных матриц. Интеллект, 33 (3), 307–324. DOI: 10.1016/j.intell.2005.02.002.
- ^ Хофер, С. (2004). Разработчик Matrix. Мюнстер, Германия: Психологический институт IV. Вестфальский университет Вильгельма.
- ^ Фройнд, Пенсильвания, Хофер, С., и Холлинг, Х. (2008). Объяснение и контроль психометрических свойств элементов фигуральной матрицы, сгенерированных компьютером. Прикладное психологическое измерение, 32 (3), 195–210. DOI: 10.1177/0146621607306972.
- ^ Эмбретсон, SE (1998). Подход системы когнитивного проектирования к созданию действительных тестов: применение к абстрактным рассуждениям. Психологические методы, 3 (3), 380–396.
- ^ Эмбретсон, С.Э., и Рейз, СП (2000). Теория ответа на вопрос для психологов . Махва: Lawrence Erlbaum Associates.