Автоматизированная оценка эссе
Автоматизированная оценка эссе ( AES ) — это использование специализированных компьютерных программ для выставления оценок эссе, написанным в образовательных целях. Это форма образовательной оценки и применение обработки естественного языка . Его цель — классифицировать большой набор текстовых объектов на небольшое количество дискретных категорий, соответствующих возможным классам, например, числам от 1 до 6. Следовательно, это можно рассматривать как задачу статистической классификации .
Растущему интересу к AES способствовало несколько факторов. Среди них стоимость, подотчетность, стандарты и технологии. Рост расходов на образование привел к необходимости заставить систему образования отвечать за результаты путем введения стандартов. Развитие информационных технологий обещает измерять образовательные достижения при меньших затратах.
Использование AES для ответственного тестирования в образовании вызвало значительную негативную реакцию: оппоненты указывают на исследования, согласно которым компьютеры пока не могут точно оценивать письмо, и утверждают, что их использование в таких целях способствует обучению письму редукционными способами (т.е. обучению на основе теста ).
История [ править ]
Большинство исторических обзоров AES прослеживают происхождение этой области до работы Эллиса Баттена Пейджа . [1] В 1966 году он утверждал [2] за возможность оценивать эссе с помощью компьютера, а в 1968 году опубликовал [3] его успешная работа с программой Project Essay Grade (PEG). При использовании технологий того времени компьютеризированная оценка эссе не была бы экономически эффективной. [4] поэтому Пейдж приостановил свои усилия примерно на два десятилетия. В конце концов Пейдж продал PEG компании Measurement Incorporated.
К 1990 году настольные компьютеры стали настолько мощными и настолько распространенными, что AES стал практически возможным. Еще в 1982 году программа UNIX под названием Writer's Workbench могла давать советы по пунктуации, орфографии и грамматике. [5] В сотрудничестве с несколькими компаниями (в частности, с Службой образовательного тестирования) Пейдж обновил PEG и провел несколько успешных испытаний в начале 1990-х годов. [6]
Питер Фольц и Томас Ландауэр разработали систему, использующую механизм оценки под названием Intelligent Essay Assessor (IEA). IEA впервые был использован для оценки эссе в 1997 году на курсах бакалавриата. [7] Сейчас это продукт компании Pearson Educational Technologies, который используется для выставления оценок в ряде коммерческих продуктов, а также на государственных и национальных экзаменах.
IntelliMetric — это механизм AES компании Vantage Learning. Его разработка началась в 1996 году. [8] Впервые он был использован в коммерческих целях для оценки эссе в 1998 году. [9]
Служба образовательного тестирования предлагает «e-rater», автоматизированную программу оценки эссе. Впервые он был использован в коммерческих целях в феврале 1999 года. [10] Джилл Берштейн была руководителем группы его разработки. Служба онлайн-оценки письменного письма Criterion ETS использует механизм e-rater для выставления оценок и целевой обратной связи.
Лоуренс Раднер немного поработал с байесовской системой оценки и разработал систему под названием BETSY (система оценки байесовских тестов эссе). [11] Некоторые из его результатов были опубликованы в печати или в Интернете, но ни одна коммерческая система пока не включает BETSY.
Под руководством Говарда Митцеля и Сью Лоттридж компания Pacific Metrics разработала систему автоматического подсчета баллов с построением ответов CRASE. Технология Pacific Metrics, которая в настоящее время используется департаментами образования нескольких штатов и в рамках гранта на расширенную оценку, финансируемого Министерством образования США, с 2007 года используется в крупномасштабных средах формирующего и суммирующего оценивания.
Measurement Inc. приобрела права на PEG в 2002 году и продолжила его развитие. [12]
В 2012 году Фонд Hewlett спонсировал конкурс на Kaggle под названием «Приз автоматизированной оценки учащихся» (ASAP). [13] 201 участник конкурса попытался с помощью AES предсказать оценки, которые оценщики-люди дадут тысячам эссе, написанных по восьми различным подсказкам. Цель заключалась в том, чтобы продемонстрировать, что AES может быть таким же надежным, как люди, или даже более надежными. В ходе конкурса также была проведена отдельная демонстрация девяти поставщиков AES на подмножестве данных ASAP. Хотя исследователи сообщили, что автоматическая оценка эссе была столь же надежна, как и оценка человеком, [14] это утверждение не было подтверждено какими-либо статистическими тестами, поскольку некоторые поставщики требовали, чтобы такие тесты не проводились в качестве предварительного условия для их участия. [15] Более того, утверждение о том, что исследование Hewlett показало, что AES может быть столь же надежным, как и оценщики-люди, с тех пор сильно оспаривается. [16] [17] в том числе Рэнди Э. Беннетт , председатель Нормана О. Фредериксена по инновациям в оценке Службы образовательного тестирования . [18] Некоторые из основных критических замечаний по поводу исследования заключались в том, что пять из восьми наборов данных состояли из абзацев, а не эссе, четыре из восьми наборов данных оценивались читателями только по содержанию, а не по способностям к письму, и это вместо того, чтобы оценивать читателей-людей. и машин AES против «истинной оценки», среднего балла двух читателей, в исследовании использовалась искусственная конструкция, «разрешенная оценка», которая в четырех наборах данных состояла из более высокой из двух оценок человека, если существовала несогласие. Эта последняя практика, в частности, дала машинам несправедливое преимущество, позволив им округлять эти наборы данных. [16]
В 1966 году Пейдж предположил, что в будущем компьютерный судья будет лучше коррелировать с каждым судьей-человеком, чем другие судьи-люди. [2] Несмотря на критику применимости этого подхода к оцениванию эссе в целом, эта гипотеза была поддержана для оценки произвольных текстовых ответов на короткие вопросы, например, типичные для британской системы GCSE . [19] Результаты контролируемого обучения показывают, что автоматические системы работают хорошо, когда оценки, выставленные разными учителями, хорошо согласуются. Неконтролируемая кластеризация ответов показала, что отличные и слабые работы образовывали четко определенные кластеры, и правило автоматического выставления оценок для этих кластеров работало хорошо, тогда как оценки, выставленные учителями-людьми для третьего кластера («смешанные»), могут быть противоречивыми, а надежность Любая оценка произведений из «смешанного» кластера зачастую может быть поставлена под сомнение (как человеческая, так и компьютерная). [19]
качества аспекты Различные эссе
Согласно недавнему опросу, [20] современные системы AES пытаются оценить различные параметры качества эссе, чтобы предоставить пользователям обратную связь. Эти размеры включают в себя следующие элементы:
- Грамматичность: соблюдение грамматических правил.
- Использование: употребление предлогов, словоупотребление.
- Механика: соблюдение правил орфографии, пунктуации, использования заглавных букв.
- Стиль: выбор слов, разнообразие структуры предложений.
- Релевантность: насколько контент соответствует подсказке.
- Организация: насколько хорошо структурировано эссе
- Развитие: развитие идей с примерами
- Сплоченность: правильное использование переходных фраз.
- Согласованность: соответствующие переходы между идеями
- Ясность тезиса: ясность тезиса.
- Убедительность: убедительность основного аргумента.
Процедура [ править ]
С самого начала основная процедура AES заключалась в том, чтобы начать с набора обучающих эссе, которые были тщательно проверены вручную. [21] Программа оценивает поверхностные характеристики текста каждого эссе, такие как общее количество слов, количество придаточных предложений или соотношение прописных и строчных букв — величины, которые можно измерить без какого-либо человеческого вмешательства. Затем он строит математическую модель, которая связывает эти величины с оценками, полученными за эссе. Затем та же модель применяется для подсчета баллов новых эссе.
Недавно одну такую математическую модель создали Исаак Персинг и Винсент Нг. [22] который оценивает эссе не только по указанным выше признакам, но и по их аргументационной силе. Он оценивает различные особенности эссе, такие как уровень согласия автора и причины его, соответствие теме подсказки, расположение компонентов аргументации (основное утверждение, утверждение, посылка), ошибки в аргументах, связность аргументов. среди различных других функций. В отличие от других моделей, упомянутых выше, эта модель ближе к дублированию человеческого понимания при оценке эссе. В связи с растущей популярностью глубоких нейронных сетей для автоматической оценки эссе были приняты подходы глубокого обучения, которые, как правило, дают превосходные результаты, часто превосходящие уровни межчеловеческого соглашения. [23]
Различные программы AES различаются тем, какие конкретные характеристики поверхности они измеряют, сколько эссе требуется в обучающем наборе и, что наиболее важно, техникой математического моделирования. Ранние попытки использовали линейную регрессию . Современные системы могут использовать линейную регрессию или другие методы машинного обучения, часто в сочетании с другими статистическими методами, такими как скрытый семантический анализ. [24] и байесовский вывод . [11]
Задача автоматизированной оценки эссе также изучалась в междоменных условиях с использованием моделей машинного обучения, где модели обучаются на эссе, написанных для одного запроса (темы), и тестируются на эссе, написанных для другого запроса. Успешные подходы в междоменном сценарии основаны на глубоких нейронных сетях. [25] или модели, сочетающие в себе глубокие и поверхностные функции. [26]
Критерии успеха [ править ]
Любой метод оценки должен оцениваться с точки зрения его обоснованности, справедливости и надежности. [27] Инструмент действителен, если он действительно измеряет характеристику, которую он призван измерить. Это справедливо, если оно, по сути, не наказывает и не ставит в привилегии какой-либо один класс людей. Оно надежно, если его результат повторяем, даже если изменяются несущественные внешние факторы.
До того, как на сцену вышли компьютеры, эссе с высокими ставками обычно оценивались двумя обученными оценщиками. Если оценки различались более чем на один балл, разногласия урегулировал бы более опытный третий эксперт. В этой системе есть простой способ измерения надежности: по соглашению между экспертами . Если оценщики не всегда приходят к единому мнению в пределах одного пункта, возможно, ошибка в их обучении. Если оценщик постоянно не согласен с тем, как другие оценщики смотрят на одни и те же эссе, ему, вероятно, требуется дополнительное обучение.
Для измерения согласия между экспертами были предложены различные статистические данные. Среди них процентное согласие, π Скотта , κ Коэна , α Криппендорфа , коэффициент корреляции Пирсона r , коэффициент ранговой корреляции Спирмена Лина ρ и коэффициент корреляции согласования .
Процентное согласие — это простая статистика, применимая к оценочным шкалам с баллами от 1 до n, где обычно 4 ≤ n ≤ 6. Оно выражается в виде трех цифр, каждая из которых представляет собой процент от общего количества набранных эссе: точное согласие (два оценщика дали эссе получила одинаковую оценку), смежное согласие (оценщики различались не более чем на один балл; сюда входит точное согласие) и крайнее несогласие (оценщики различались более чем на два балла). Было обнаружено, что эксперты-оценщики достигают точного согласия в 53–81% всех эссе и смежного согласия в 97–100%. [28]
Соглашение между экспертами теперь можно применять для измерения производительности компьютера. Набор эссе передается двум оценщикам и программе AES. Если баллы, присвоенные компьютером, совпадают с оценками одного из оценщиков, а также оценщики согласуются друг с другом, программа AES считается надежной. В качестве альтернативы каждому эссе присваивается «истинная оценка» путем взятия среднего значения оценок двух людей, а затем сравниваются два человека и компьютер на основе их согласия с истинной оценкой.
Некоторые исследователи сообщают, что их системы AES фактически могут работать лучше, чем люди. Пейдж сделал это заявление для PEG в 1994 году. [6] Скотт Эллиот сказал в 2003 году, что IntelliMetric обычно превосходит людей по результатам. [8] Однако машины AES кажутся менее надежными, чем люди-читатели, для любого сложного теста письма. [29]
В современной практике такие важные экзамены, как GMAT, всегда оценивается как минимум одним человеком. Вместо второго оценщика используется AES. Оценщик-человек разрешает любые разногласия, состоящие более чем из одного пункта. [30]
Критика [ править ]
AES подвергался критике по разным причинам. Ян и др . упомянуть «чрезмерную зависимость от поверхностных особенностей ответов, нечувствительность к содержанию ответов и творчеству, а также уязвимость к новым типам мошенничества и стратегиям прохождения тестов». [30] Некоторые критики обеспокоены тем, что мотивация студентов снизится, если они будут знать, что ни один человек не будет читать их сочинения. [31] Среди наиболее красноречивых критических замечаний можно назвать сообщения о намеренно бессмысленных эссе, получивших высокие оценки. [32]
HumanReaders.Org Петиция
12 марта 2013 года HumanReaders.Org запустил онлайн-петицию «Профессионалы против машинной оценки студенческих эссе при проведении экзаменов с высокими ставками». За несколько недель петиция собрала тысячи подписей, в том числе Ноама Хомского . [33] и цитировался в ряде газет, включая The New York Times , [34] и в ряде образовательных и технологических блогов. [35]
В петиции использование AES для тестирования с высокими ставками описывается как «тривиальное», «упрощающее», «неточное», «недиагностическое», «несправедливое» и «секретное». [36]
В подробном обзоре исследований AES сайт петиции отмечает: «РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЙ ПОКАЗЫВАЮТ, ЧТО никто — студенты, родители, учителя, работодатели, администраторы, законодатели — не могут полагаться на машинную оценку эссе… И ЧТО машинная оценка не измеряет и, следовательно, не способствует аутентичным письменным актам». [37]
В петиции конкретно говорится об использовании AES для ответственного тестирования и ничего не говорится о других возможных вариантах использования.
Программное обеспечение [ править ]
Большинство ресурсов для автоматической оценки эссе являются собственностью.
- eRater - опубликовано Службой образовательного тестирования.
- Интеллиметрический – от Vantage Learning
- Оценка эссе проекта [38] – Измерение, Inc.
Ссылки [ править ]
- ^ Пейдж, Э.Б. (2003). «Оценка эссе проекта: PEG», с. 43. Шермис, Марк Д. и Джилл Берштейн, ред., Автоматизированная оценка эссе: междисциплинарная перспектива . Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN 0805839739
- Ларки, Лия С. и В. Брюс Крофт (2003). «Подход к категоризации текста для автоматической оценки эссе», с. 55. Шермис, Марк Д. и Джилл Берштейн, ред. Автоматизированная оценка эссе: междисциплинарная перспектива . Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN 0805839739
- Кейт, Тимоти З. (2003). «Действительность автоматизированных систем оценки эссе», стр. 153. Шермис, Марк Д. и Джилл Берштейн, ред., Автоматизированная оценка эссе: междисциплинарная перспектива . Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN 0805839739
- Шермис, Марк Д., Джилл Берштейн и Клаудия Ликок (2006). «Применение компьютеров для оценки и анализа письма», с. 403. В Макартуре, Чарльзе А., Стиве Грэме и Джилл Фицджеральд, ред., «Справочник по исследованию письма» . Гилфорд Пресс, Нью-Йорк, ISBN 1-59385-190-1
- Аттали, Игаль, Брент Бриджман и Кэтрин Трапани (2010). «Эффективность общего подхода к автоматизированной оценке эссе», стр. 4. Журнал технологий, обучения и оценки , 10 (3)
- Ван, Цзиньхао и Мишель Сталлоне Браун (2007). «Автоматическая оценка эссе по сравнению с оценкой вручную: сравнительное исследование», стр. 6. Журнал технологий, обучения и оценки , 6 (2)
- Беннетт, Рэнди Эллиот и Анат Бен-Саймон (2005). «На пути к теоретически значимой автоматизированной оценке эссе». Архивировано 7 октября 2007 г. в Wayback Machine , стр. 6. Проверено 19 марта 2012 г. - ^ Jump up to: а б Пейдж, Э.Б. (1966). «Неизбежность... оценивания эссе на компьютере». Фи Дельта Каппан . 47 (5): 238–243. JSTOR 20371545 .
- ^ Пейдж, Э.Б. (1968). «Использование компьютера при анализе студенческих эссе», International Review of Education , 14 (3), 253–263.
- ^ Пейдж, Э.Б. (2003), стр. 44-45.
- ^ Макдональд, Нью-Хэмпшир, Л.Т. Фрейз, П.С. Гингрич и С.А. Кинан (1982). «Инструменты Writers: компьютерные средства для анализа текста», IEEE Transactions on Communications , 3 (1), 105–110.
- ^ Jump up to: а б Пейдж, Э.Б. (1994). «Новая компьютерная оценка студенческой прозы с использованием современных концепций и программного обеспечения», Журнал экспериментального образования , 62 (2), 127–142.
- ^ Руднер, Лоуренс. «Три выдающиеся программы оценки письма». Архивировано 9 марта 2012 года в Wayback Machine . Проверено 6 марта 2012 г.
- ^ Jump up to: а б Эллиот, Скотт (2003). «Интеллиметрическая ТМ: отсюда к достоверности», с. 75. Шермис, Марк Д. и Джилл Берштейн, ред., Автоматизированная оценка эссе: междисциплинарная перспектива . Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN 0805839739
- ^ « IntelliMetric®: Как это работает », Vantage Learning. Проверено 28 февраля 2012 г.
- ^ Бурштейн, Джилл (2003). «Система оценки E-rater (R): автоматическая оценка эссе с обработкой естественного языка», стр. 113. Шермис, Марк Д. и Джилл Бурштейн, ред., Автоматизированная оценка эссе: междисциплинарная перспектива . Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN 0805839739
- ^ Jump up to: а б Руднер, Лоуренс (ок. 2002 г.). «Компьютерная оценка с использованием байесовских сетей – обзор». Архивировано 8 марта 2012 г. в Wayback Machine . Проверено 7 марта 2012 г.
- ^ «Технологии оценки». Архивировано 29 декабря 2011 года в Wayback Machine , Measurement Incorporated. Проверено 9 марта 2012 г.
- ↑ Премия Хьюлетта. Архивировано 30 марта 2012 года в Wayback Machine . Проверено 5 марта 2012 года.
- ^ «Человек и машина: лучшие писатели, лучшие оценки» . Университет Акрона. 12 апреля 2012 года . Проверено 4 июля 2015 г.
- Шермис, Марк Д. и Джилл Берштейн, ред. Справочник по автоматизированной оценке эссе: текущие применения и новые направления . Рутледж, 2013. - ^ Ривард, Рай (15 марта 2013 г.). «Люди борются за роботов-читателей» . Внутри высшего образования . Проверено 14 июня 2015 г.
- ^ Jump up to: а б Перельман, Лес (август 2013 г.). «Критика Марка Д. Шермиса и Бена Хамнера, «Сопоставление современной автоматизированной оценки эссе: анализ» » . Журнал оценки письма . 6 (1) . Проверено 13 июня 2015 г.
- ^ Перельман, Л. (2014). «Когда «современное состояние искусства заключается в подсчете слов»», Оценка письма , 21 , 104–111.
- ^ Беннетт, Рэнди Э. (март 2015 г.). «Изменяющаяся природа оценки образования». Обзор исследований в области образования . 39 (1): 370–407. дои : 10.3102/0091732X14554179 . S2CID 145592665 .
- ^ Jump up to: а б Сюзен, Н.; Миркес, Э.М.; Левсли, Дж; Горбань, АН (2020). «Автоматическая оценка коротких ответов и обратная связь с использованием методов анализа текста» . Procedia Информатика . 169 : 726–743. arXiv : 1807.10543 . дои : 10.1016/j.procs.2020.02.171 .
- ^ Кэ, Цзысюань (9 августа 2019 г.). «Автоматическая оценка эссе: обзор современного состояния» (PDF) . Материалы двадцать восьмой Международной совместной конференции по искусственному интеллекту . стр. 6300–6308. дои : 10.24963/ijcai.2019/879 . ISBN 978-0-9992411-4-1 . Проверено 11 апреля 2020 г.
- ^ Кейт, Тимоти З. (2003), с. 149.
- ^ Персинг, Исаак и Винсент Нг (2015). «Моделирование силы аргументов в студенческих эссе» , стр. 543–552. В материалах 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й Международной совместной конференции по обработке естественного языка (Том 1: Длинные статьи) . Проверено 22 октября 2015 г.
- ^ Ян, Руосун; Цао, Цзяньнун; Вэнь, Чжиюань; Ву, Ючжэн; Хэ, Сяодун (2020). «Повышение эффективности автоматизированной оценки эссе за счет точной настройки предварительно обученных языковых моделей с сочетанием регрессии и ранжирования» . Выводы Ассоциации компьютерной лингвистики: EMNLP 2020 . Онлайн: Ассоциация компьютерной лингвистики: 1560–1569. doi : 10.18653/v1/2020.findings-emnlp.141 . S2CID 226299478 .
- ^ Беннетт, Рэнди Эллиот и Анат Бен-Саймон (2005), с. 7.
- ^ Цао, Юэ; Цзинь, Ханци; Ван, Сяоцзюнь; Ю, Живэй (25 июля 2020 г.). «Адаптивная к предметной области нейронная автоматическая оценка эссе» . Материалы 43-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска . СИГИР '20. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1011–1020. дои : 10.1145/3397271.3401037 . ISBN 978-1-4503-8016-4 . S2CID 220730151 .
- ^ Козма, Мадалина; Бутнару, Андрей; Ионеску, Раду Тудор (2018). «Автоматическая оценка эссе с использованием строковых ядер и встраивания слов» . Материалы 56-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 2: Короткие статьи) . Мельбурн, Австралия: Ассоциация компьютерной лингвистики: 503–509. arXiv : 1804.07954 . дои : 10.18653/v1/P18-2080 . S2CID 5070986 .
- ^ Чанг, Грегори КВК и Ева Л. Бейкер (2003). «Проблемы надежности и достоверности автоматизированной оценки сконструированных ответов», стр. 23. В: Автоматизированная оценка эссе: междисциплинарная перспектива . Шермис, Марк Д. и Джилл Берштейн, ред. Lawrence Erlbaum Associates, Махва, Нью-Джерси, ISBN 0805839739
- ^ Эллиот, Скотт (2003), стр. 77.
- Бурштейн, Джилл (2003), с. 114. - ^ Беннетт, Рэнди Э. (май 2006 г.). «Оценка технологий и письма: уроки, извлеченные из Национальной оценки образовательного прогресса США» (PDF) . Международная ассоциация оценки образования . Архивировано из оригинала (PDF) 24 сентября 2015 года . Проверено 5 июля 2015 г.
- МакКарри, Д. (2010). «Может ли машинная оценка справиться с широкими и открытыми письменными тестами так же, как и с читателями?». Оценка письма . 15 (2): 118–129. дои : 10.1016/j.asw.2010.04.002 .
- Р. Бриджман (2013). Шермис, Марк Д.; Бурштейн, Джилл (ред.). Справочник по автоматизированной оценке эссе . Нью-Йорк: Рутледж. стр. 221–232. - ^ Jump up to: а б Ян, Йонгвэй, Чад В. Бакендаль, Петр Дж. Юшкевич и Деннисон С. Бхола (2002). «Обзор стратегий проверки компьютерно-автоматизированной оценки». Архивировано 13 января 2016 г. в Wayback Machine , Applied Measurement in Education , 15 (4). Проверено 8 марта 2012 г.
- ^ Ван, Цзиньхао и Мишель Сталлоне Браун (2007), стр. 4-5.
- Дикли, Семире (2006). «Обзор автоматизированной оценки эссе». Архивировано 8 апреля 2013 г. в Wayback Machine , Журнал технологий, обучения и оценки , 5 (1).
- Бен-Симон, Анат (2007). «Введение в автоматизированную систему оценки эссе (AES)», презентация PowerPoint, Тбилиси, Грузия, сентябрь 2007 г. - ^ Винрип, Майкл (22 апреля 2012 г.). «Столкнуться с роботом-оценщиком? Просто продолжайте сладко запутывать» . Нью-Йорк Таймс . Проверено 5 апреля 2013 г.
- ^ «Подписи >> Профессионалы против машинной оценки студенческих эссе при проведении экзаменов с высокими ставками» . HumanReaders.Org . Архивировано из оригинала 18 ноября 2019 года . Проверено 5 апреля 2013 г.
- ^ Маркофф, Джон (4 апреля 2013 г.). «Программное обеспечение для оценки эссе дает профессорам передышку» . Нью-Йорк Таймс . Проверено 5 апреля 2013 г.
- Гарнер, Ричард (5 апреля 2013 г.). «Профессора злятся из-за эссе, отмеченных компьютером» . Независимый . Проверено 5 апреля 2013 г. - ^ Корриган, Пол Т. (25 марта 2013 г.). «Петиция против машинной оценки эссе, HumanReaders.Org» . Преподавание и обучение в высшем образовании . Проверено 5 апреля 2013 г.
- Джаффи, Роберт Дэвид (5 апреля 2013 г.). «Компьютеры не могут читать, писать и оценивать работы» . Хаффингтон Пост . Проверено 5 апреля 2013 г. - ^ «Профессионалы против машинной оценки студенческих эссе при проведении экзаменов с высокими ставками» . HumanReaders.Org . Проверено 5 апреля 2013 г.
- ^ «Результаты исследования >> Профессионалы против машинной оценки студенческих эссе при проведении экзаменов с высокими ставками» . HumanReaders.Org . Проверено 5 апреля 2013 г.
- «Цитируемые работы >> Профессионалы против машинной оценки студенческих эссе при проведении экзаменов с высокими ставками» . HumanReaders.Org . Проверено 5 апреля 2013 г. - ^ «Технологии оценки». Архивировано 24 февраля 2019 г. в Wayback Machine , Measurement, Inc.